Software und Tools
Vorbemerkung
So langlebig Datenbestände sein können, die in Standardformaten (xml, csv, txt…) gespeichert wurden, so kurzlebig sind potentiell Websites und andere Software-Produkte. Damit gemeint sind etwa Programme, die oft speziell im Rahmen eines Projekts entwickelt wurden und dann nicht weiter „gewartet“, also an die sich rapide verändernde Software-Landschaft angepasst werden können.
Es gibt keine einfache Lösung für dieses Problem, doch besteht ein erster Schritt in der Einschätzung
(a) ob die Funktion, die gebraucht wird (Karten- oder Netzwerkvisualisierung…), nicht auch mit vorhandenen Softwarelösungen erreicht werden kann und man somit keine neue Programmierung beauftragen muss. Neben dem hier gebotenen Überblick zu den Themen Texterkennung, Edition, Audiotranskription und Literaturverwaltung sowie den Abschnitten über Netzwerkanalyse und Topic Modelling kann zur Orientierung herangezogen werden: die Liste der für Studierende und Mitarbeiter*innen der Universität vom ZID lizensierten Software; sowie Überblicksdarstellungen für bestimmte Bereiche, etwa zu textbezogenen Applikationen (2021).
(b) ob es, im Falle weniger komplexer Anwendungsfälle, nicht zweckmäßig sein könnte, sich selbst an der Erstellung einfacher Skripte und damit im Umgang mit einschlägigen Werkzeugen und Methoden zu versuchen.
(c) ob man, sollte tatsächlich eine neue Softwarelösung beauftragt werden müssen, die entsprechende Firma nicht im Hinblick auf ähnliche, bereits vorhandene (ggf. standardisierte und institutionell unterstützte) Lösungen in Kenntnis setzen und deren Berücksichtigung oder im Fall von open source Weiterverwendung, nicht bei der Beauftragung vertraglich vereinbaren kann. – Wir haben Erfahrungswerte mit derartigen auf DH-Fragen spezialisierte Firmen, die wir auf Anfrage gerne weitergeben.
Für viele Software-Anwendungen gilt, dass sie kaum sofort in der gewünschten Weise funktionieren und dass in jedem Fall eine sinnvoll bemessene Zeitspanne für (begleitetes) Testen, auch mehrerer Produkte, einkalkuliert werden sollte.
[20220929]
"Methods" und "Tools"
Erfahrungsgemäß besteht eine der zentralen Quellen für Missverständnisse zwischen digitalen und nicht-digitalen Geisteswissenschaften in der unterschiedlichen Bedeutung des Begriffes „Methode“: Was hier eine in spezifischen Fachtraditionen abgesicherte konzeptionelle Architektur ist, ist dort eine Menge an algorithmischen Berechnungsverfahren, deren Reflexion in Zukunft noch wesentlich stärker als bisher in den geisteswissenschaftlichen Forschungsdiskurs zu integrieren sein wird.
Mit den „Tools und Methods“, die etwa eine zentrale Rolle im Masterstudium DH einnehmen, sind somit einerseits algorithmische „Methoden“ im letzteren Sinn gemeint, mit „Tools“ andererseits jene Skript- und Programmiersprachen, mit denen diese „Methoden“ heute in den Datenwissenschaften meist zur Anwendung kommen; in den frühen 2020er Jahren sind dies vor allem Python und R.
Aus diesem Zusammenhang erklärt sich auch die oft verwendete Plural-Syntax "Tools & Methods", nach der eine bestimmte Methode – etwa Topic Modelling - mit unterschiedlichen Tool durchgeführt werden kann, und umgekehrt.
Eine auch in der DH-Lehre weit verbreitete Plattform zum niederschwelligen Erlernen von „Tools and Methods“ ist The Programming Historian; auch kommerzielle Programmier-Lehr-Plattformen wie Data Camp kommen in der DH-Lehre immer wieder zum Einsatz.
[20220929]
OCR und HTR
Transkribus hat sich seit den späten 2010er Jahren in Österreich zur bevorzugten Plattform für jede Art der Texterkennung etabliert – sowohl für das ursprüngliche Alleinstellungsmerkmal HTR (Handwritten Text Recognition), als mittlerweile auch für OCR (Optical Character Recognition) gedruckter Texte. Die Universität Wien bietet ihren Mitarbeiter*innen sowohl Transkribus-Credits als auch entsprechende Beratung und Begleitung an (transkribus.ub@univie.ac.at).
Neben Transkribus gibt es auch andere Lösungen zur automatisierten Texterkennung, etwa eScriptorium.
[20220929]
Digitales Edieren
TEI-XML ist der am weitesten verbreitete „Standard“ für die Datenmodellierung bei digitalen Editionen (freilich nicht die einzige, wie aus dem Weißbuch Digitale Edition ersichtlich wird). Das gegenwärtig gebräuchlichste Tool bei der Arbeit mit TEI-XML ist oXygen (und das darauf aufbauende Ediarum), Darstellungen im Webbrowser lassen sich etwa mit dem TEI-Publisher oder EVT einrichten. Einen guten Einstieg zum Erlernen des Umgangs mit der TEI bietet deren offizielle Seite.
[20220929]
Literaturverwaltung
Geschichte Online bietet einen Überblick über die gängigsten Literaturverwaltungsprogramme.
[20220929]