DataGEMS

Laufzeit: 1. Januar 2025 bis 31. Dezember 2027 DOI: 10.3030/101188416
Projektansatz
DataGEMS ist eine Datenerkennungsplattform mit generalisierbaren und anschlussfähigen Explorations-, Verwaltungs- und Suchfunktionen. DataGEMS basiert auf den Prinzipien der FAIRness, Offenheit und Wiederverwendbarkeit von Daten. Das Projekt zielt darauf ab, die kolaborative Nutzung, Entdeckung und Analyse von Daten nahtlos in ein System zu integrieren, das den gesamten Lebenszyklus von Daten, d. h. Austausch, Speicherung, Verwaltung, Erkennung, Analyse und Wiederverwendung (von Daten und/oder Metadaten), abdeckt und die Lücke zwischen dem Datenanbieter und dem Datenkonsumenten überbrückt. DataGEMS ist ein Datenerkennungs- und Verwaltungssystem der nächsten Generation, das verschiedene Datentypen (strukturierte, unstrukturierte, Echtzeit- und historische Daten) umfasst. Im Ergebnis wird es Nutzern ermöglicht, Daten durch eine leistungsstarke, barrierefreie Erkennung und Analyse über und innerhalb von Datensätzen mit Hilfe von benutzerintuitiven Analysemechanismen zu erfassen. Unterstützt werden Nutzer dabei z.B. durch die Verwendung natürlicher Sprache und Muster bei Suchanfragen, oder die effektive Erforschung und Kombination von Daten mit Hilfe von intuitiven Anleitungsmechanismen für den Analyseprozess. Die Effizienz dieser Mechanismen wird durch eine Daten- und Modellverwaltungsschicht gewährleitet, die die Datenverwaltung auf der unteren Ebene von der Datenanalyse auf der oberen Ebene entkoppelt. DataGEMS startet auf explorativer Basis mit prototypischen Pilotfällen, anhand derer die FAIRness der zu etablierenden Datenbasis entwickelt wird. Die Bedarfe verschiedener Nutzergemeinschaften und Nutzertypen in den Kernbereichen Bildung, Meteorologie und Sprachdateninfrastrukturen werden hierfür gezielt aufgegriffen.
Projektziele
Schwerpunktmäßig arbeitet das IDS im Rahmen von DataGEMS insbesondere auf zwei Themengebieten: Einerseits bringt es seine juristische Expertise im ethisch korrekten und rechtstabilen Umgang mit digitalen Forschungsdaten in das Projekt ein. Andererseits bearbeitet es, unter der Zielstellung der Integration heterogener Forschungsdaten in die europaweit verteilte, stark interoperabel angesetzte Infrastruktur EOSC, das Pilotprojekt Linguistik. Das IDS wird hierbei seine Vorarbeiten aus dem Verbund CLARIN-D nutzen und den Partnern in DataGEMS zur Verfügung stellen.
Konkret wird das IDS die im Projekt bereitzustellenden Datensätze mit rechtlichen Metadaten anreichern, d. h. mit Metadaten annotieren, die den IPR-Status, den Lizenzstatus, den Datenschutzstatus und gegebenenfalls andere relevante rechtliche Informationen (z. B. in Bezug auf den AI Act, Data Act oder den Data Governance Act) umschreiben. Diese Maßnahme ist eine Voraussetzung für die rechtmäßige Nutzung der Datensätze, um diese Ressource mit Blick auf ihre Auffindbarkeit und Verknüpfbarkeit vollumfänglich ausschöpfen zu können.
DataGEMS sieht darüber hinaus 20 Pilotprojekte vor, anhand derer exemplarische use cases initiiert werden, die als Anknüpfungspunkte für einen sukzessiven Ausbau der Infrastruktur dienen sollen. Die Pilotprojekte zum use case Sprachdateninfrastruktur werden end-to-end-Szenarien entwickeln, an denen Forscher aus den Sozial- und Geisteswissenschaften sowie anderen Disziplinen, Lehrer, Übersetzer und andere Sprachfachleuten beteiligt sind. Ausgehend von seinen im CLARIN-Verbund aufgebauten Kapazitäten wird das IDS hierbei historische deutschsprachige Enzyklopädien des frühen 18. bis 20. Jahrhunderts in den maschinenlesbaren Standard TEI LEX-0 überführen, annotieren und offen bereitstellen. Ziel ist es, diesen Datenschatz auf diachrone Entwicklungen hin auswertbar zu gestalten und für maschinengestützte Suchanfragen zu erschließen. Hierfür sollen unterschiedliche Analyseverfahren wie komparative und semantische Suchen, Visualisierungen sowie die Einbeziehung von Large Language Models für komplexere prompts auf Basis dieses Datensatzes für die Analyse angeboten werden, um die Digitalen Geisteswissenschaften zu unterstützen.
Verbundpartner
Das IDS agiert im Projekt DataGEMS als Zuwendungsempfänger in einem Verbund aus 11 Partnern aus acht europäischen Ländern. Das Vorhaben wird vom Athena Research Center in Griechenland koordiniert und von der Europäischen Union gefördert.
Mitarbeiter
- Prof. Dr. Andreas Witt (Leitung)
- Dr. Norman Fiedler (Koordination)
- Thora Hagen
- Dr. Pawel Kamocki
DataGEMS ist eine im Rahmen von Horizon Europe geförderte Forschungs- und Innovationsmaßnahme (Grant Agreement No 101188416).
