Datenanalyse, methodologische und epistemologische Fragen

Vorbemerkung

Geisteswissenschaftliche Fächer gründen ihren Erkenntnismodus oft in hermeneutischen Verfahren, in welchen größere Quellenkorpora begründet selektiv beschrieben und interpretiert werden. Zwar sind empirische Methoden (wie Oral History oder teilnehmende Beobachtung) den Geisteswissenschaften ebenso wenig fremd wie statistische Verfahren (etwa in der Wirtschafts- und Sozialgeschichte), doch existiert häufig eine Reserviertheit gegenüber computergestützten Analyseverfahren, die in einer langen Tradition epistemischen Ringens zwischen quantitativen und qualitativen Ansätzen gesehen werden kann.

Einzuräumen ist, dass datenanalytische Verfahren überall dort etablierter sind und höhere Akzeptanz genießen, wo sie - wie etwa in der Archäologie - materialkundliche, wissenschaftlich messbare Aspekte betreffen. Weniger Akzeptanz genießen ähnliche Verfahren, die sich auf Text und Bedeutung beziehen. Dazu kommt, dass moderne Machine-Learning-Verfahren Wahrscheinlichkeiten oder Plausibilitäten zum Ergebnis haben, die als Resultate qualitativer Forschung oft ungewöhnlich wirken. 

[20231231]

Rechtliche und ethische Aspekte

In der Analyse von Forschungsdaten treffen die Problemfelder von Datenschutz, Urheberrecht und Forschungsethik aufeinander. Diese Bereiche müssen mit Blick auf die behandelte Fragestellung, die Forschungsziele sowie die verfolgte Publikationsstrategie gegeneinander abgewogen werden.

Sozialwissenschaftliche Prozessierung von Daten ist bei Einhaltung der entsprechenden rechtlichen und ethischen Vorgaben ausdrücklich erlaubt. §42h öUrhG regelt die Verarbeitung von Daten zu Zwecken des Data Mining.

Auf rechtliche und ethische Aspekte bei daten-orientierten Forschungsprojekten ist im Rahmen von Datenmanagementplänen einzugehen.

[20231231]

Netzwerkanalyse

Netzwerkanalyse in einem engeren Sinne meint die mathematische Betrachtung eines Gebildes, das in einem limitierten Korpus / einer limitierten Population durch die Abstraktion von Entitäten und Relationen zu Knoten und Kanten entsteht. Entitäten/Knoten können dabei Personen oder Institutionen ebenso sein wie beispielsweise Wörter oder Handschriften; Kanten/Relationen können demnach Kontakte oder Zugehörigkeiten ebenso repräsentieren wie gemeinsame Erwähnungen oder Überlieferungszusammenhänge. 

Die Netzwerkanalyse bietet ein seit den 1970er Jahren ausgehend von den Sozialwissenschaften professionalisiertes Portfolio an Berechnungsverfahren, durch welche beispielsweise die mathematische Beschaffenheit ganzer Netzwerke (Dichte) oder einzelner Kanten (Zentralität) ermittelt und verglichen werden kann.

Einen guten Einstieg in die Thematik für Geisteswissenschafter*innen bietet The Network Turn; Beispiele für angewandte historische Netzwerkforschung finden sich im Journal of Historical Network Research.

[20231231]

Topic Modelling

Beim Topic Modelling ermittelt ein Algorithmus in zahlreichen Durchläufen durch ein Textkorpus, welche Gruppen von Wörtern (“Topics”) darin mit der größten Wahrscheinlichkeit miteinander vorkommen. “Miteinander” bezieht sich dabei auf vorab definierte Untereinheiten (etwa einzelne Briefe in einem Briefkorpus); die Anzahl der Wörter pro Topic wird ebenso vorab festgelegt.

Topic Modelling eignet sich gut zur thematischen Erschließung ansonsten unstrukturierter Textkorpora (z.B. hunderte Jahrgänge einer mit OCR bearbeiteten historischen Zeitschrift). Die Methode kann aber auch für inhaltsbezogene Analysen verwendet werden, wie im Fall der Encyclopédie oder von Texten zur Sozialistischen Internationale.

Oft wird für Topic Modelling die Python-Library Gensim verwendet; oft auch Mallet, das auch gute Tutorials bietet.

[20231231]

Stilometrie

Wie die Forschung bereit seit dem 18. Jahrhundert weiß, kann der Stil von Autor*innen quantitativ etwa anhand von deren Verwendung seltener (oder das auffällige Fehlen ansonsten häufiger) Wörter oder durch morphosyntaktische Spezifika bestimmt werden.

Bereits in der zweiten Hälfte des 20. Jahrhunderts wurde in diesem Bereich anhand offener Fragen von Autorzuschreibung (Federalist Papers, De imitatione Christi) ein methodisches Rahmenwerk erarbeitet.

Einen grundlegenden Überblick vermittelt Oakes, Statistics for Corpus Linguistics; ein rezentes Beispiel behandelt das Corpus Platonicum. Häufig verwendet wird für stilometrische Analysen das R stylo package.

[20231231]

GIS

Mit “Geographic Information Systems” (bzw. den verwandten Rauminformationssystemen) sind allgemein Datenverarbeitungssysteme gemeint, in denen Datenpunkten räumliche Koordinaten zugewiesen werden. Die Anwendungsfälle umfassen die Visualisierung geisteswissenschaftlicher Gegenstände auf (historischem) Kartenmaterial ebenso wie etwa die Referenzierung archäologischer Landschaftsprofile.

Einen Einstieg vermitteln Geospatial Historian und A Guide to Spatial History. Meist wird für historische GIS-Aufgaben das Programm QGIS verwendet.

[20231231]