Forschungsdaten: Generierung und Management

Vorbemerkung

Nicht alle Forschenden müssen computergestützte Analyseverfahren akzeptieren oder andwenden, aber alle sollten sich mit der Nachnutzbarkeit ihrer Forschungsdaten auseinandersetzen, da seitens der akademischen Institutionen und der Fördergeber (etwa des FWF) der Druck steigt, diese im Sinne der FAIR-Prinzipien verfügbar zu machen. Mit Forschungsdaten sind hier beispielsweise Beobachtungs- oder Versuchsreihen, Editionen, Tabellen, Datenbanken o.ä. gemeint; nicht gemeint damit ist elektronisches Schriftgut, das in den Zuständigkeitsbereich des universitären Records Management fällt (etwa Emails oder Sammlungen von Scans und Literatur), ebenso wenig gemeint sind grundsätzlich Websites und andere Software-Applikationen.

[2022-09-29]

Datenmodellierung

Was versteht man unter Datenmodellierung? Ein wichtiges Einführungswerk (p. XII,  über u:search verfügbar) bezeichnet Datenmodellierung als die „zentrale Schaltstelle der Digital Humanities“, weil hier „die Gegenstände der Geistes- und Kulturwissenschaften so aufbereitet und formalisiert werden, dass sie für einen computergestützten Zugang überhaupt erst nutzbar werden.“ Vereinfacht gesagt, muss das, womit der Computer rechnen soll, auch als solches für ihn erkennbar gemacht werden – Wortarten, Personen, Orte, Maßeinheiten u.v.m.

Der einschlägige Abschnitt („Datenmodellierung“) des erwähnte Lehrbuchs vermittelt einen guten Einblick in die grundsätzlichen Zugangsmöglichkeiten zum Thema und bietet einen ersten Einstieg in die Entscheidung, ob die Modellierung am besten als Datenbank, als Netzwerk, im Format XML oder auf andere Weise erfolgen sollte.

Die entsprechende Entscheidungsfindung gehört zur Erstellung eines Konzepts für das Datenmanagement und ist als solche Gegenstand der inneruniversitären Beratung.

[2022-09-29]

Metadaten

Unabhängig von der Modellierung der Daten ist es notwendig, sie mit Metadaten zu versehen, also mit Daten, die selbst Daten beschreiben. Mit der gebotenen Vorsicht könnte man Metadaten mit bibliographischen Ansetzungen vergleichen. Im Hinblick auf PHAIDRA, das institutionelle Repositorium der Universität Wien, gibt es ausführliche Hinweise zu den verwendeten Metadaten. Andere Repositorien arbeiten mit anderen Metadaten.

Ein Beispiel, wie im ersten Teil eines TEI-XML-Files Metadaten eincodiert werden, zeigen die ersten rund 60 Zeilen eines Briefs von Alexander von Humboldt von 1820.

[2022-09-29]

Zitierung

So, wie es nötig ist, Monographien, Aufsätze und Lexikonartikel korrekt zu zitieren, so ist es notwendig, elektronische Inhalte adäquat zu referenzieren. Jedes Fach hat seine eigenen Konventionen, doch können (neben allgemeinen Hinweisen in Geschichte Online) die Richtlinien des Chicago Manual of Style zur Orientierung dienen, etwa hinsichtlich Datenbanken oder Social Media Content.

[2022-09-29]

FAIR-Prinzipien

Will man großangelegte Forschung auf der Basis existenter Forschungsdaten durchführen, so ist man auf deren Verfügbarkeit und Zugänglichkeit ebenso angewiesen wie auf das Recht zur Nachnutzung. Die so genannten FAIR-Prinzipien drücken aus, was Forschungsdaten idealerweise zu erfüllen hätten: Sie sollen auffindbar (findable), zugänglich (accessible), interoperabel und nachnutzbar (reusable) sein. Viele Forschungseinrichtungen, so auch die Universität Wien, verfassen hierzu ihre eigenen Leitfäden.

Das zunehmende Drängen von Institutionen und Fördergebern auf das Implementieren dieser Prinzipien im Bereich der Repositorien steht im allgemeinen Zusammenhang mit (Open Access-)Policies, nach denen die Ergebnisse öffentlich geförderter Forschung grundsätzlich auch offen zugänglich sein sollten. Nichtsdestoweniger gibt es auch zahlreiche rechtliche und ethische Gründe, die eine andere Vorgehensweise als die der FAIR-Prinzipien rechtfertigen. Eine solche Entscheidung sollte entsprechend im Datenmanagementplan eines Projektes ausargumentiert werden, wo auch alle anderen Rahmenbedingungen der Datenhandhabung definiert werden.

[2022-09-29]

Datenmanagement

Um einen möglichst reibungsfreien Fluss von Forschungsdaten vom individuellen Rechner zum institutionellen Repositorium zu gewährleisten, sind möglichst früh zahlreiche Entscheidungen hinsichtlich der Datenmodellierung, der Metadaten, der Datenformate und des Datenumfangs, der Zugänglichkeit, der Lizensierung etc. zu treffen. Diese Entscheidungen werden in einem Datenmanagementplan niedergelegt, bei dessen Gestaltung an der Universität Wien (ebenso bei den Betreibern anderer Repositorien) institutionelle Unterstützung zur Verfügung steht. Bei vielen Förderprogrammen ist die Ausschüttung von Geld an die vorherige Vorlage eines Datenmanageplans (z.B. FWF oder ERC) gebunden.

[2022-09-29]

Repositorien und Infrastruktur

Das institutionelle Repositorium für geisteswissenschaftliche Forschungsdaten an der Universität Wien ist PHAIDRA. Häufig gibt es im Bereich der Geistes-, Sozial- und Kulturwissenschaften aber auch Kooperationen und Vereinbarungen über langfristige Datenspeicherung bei anderen Repositorien, etwa ARCHE (Österreichische Akademie der Wissenschaften, ACDH-CH), AUSSDA (Universität Wien) oder GAMS (Universität Graz) – die jeweiligen Konditionen hinsichtlich Datenmanagement sowie Web-Services können voneinander abweichen.

Der forschungspolitische Trend geht in Richtung der Integration bestehender Infrastrukturen (z.B. in European Open Science Cloud). Mit „Infrastruktur“ ist in der Regel das maschinelle, personelle und konzeptionelle Umfeld eines Datenverarbeitungszentrums gemeint. (Wie heterogen der Begriff aufgefasst werden kann, zeigt die Infrastruktur-Datenbank des BMBWF.) 

Bei signifikant großen Datenmengen (materialanalytische Daten, Beobachtungsreihen...) kann auch eine dezentrale Speicherung erwogen werden, wobei auch Plattformen wie Zenodo (öffentlich) oder Github/Gitlab (kommerziell) in Frage kommen. Diese müssen jedoch von den Projektverantwortlichen im Lichte ihrer sich rasch wandelnden Geschäftsbedingungen und -modelle beobachtet und evaluiert werden.

[20220929]