TextTransfer

Methode zur korpusgestützten Prognose von Impactmustern in wissenschaftlichen Texten

Projektansatz 

Forschungsergebnisse aller Disziplinen liegen zumeist in Gestalt von Projektberichten vor. Nach Abschluss der Projektlaufzeit werden solche Dokumente in der Regel in spezialisierten Gedächtnisorganisationen digital archiviert. Eine nachträgliche Nutzung der in diesen Berichten konzentrierten Erkenntnisse findet jedoch oft nicht statt, sodass wertvolles Wissen potenziellen Nutzerinnen und Nutzern entgeht. 

Das Verbundprojekt TextTransfer, das sich mit TextTransfer II in der zweiten Förderphase befindet und von 2020 bis 2023 für die Dauer von drei Jahren durch das BMBF gefördert wird, zielt hinsichtlich Genauigkeit und Skalierbarkeit auf eine Optimierung der im Pilotprojekt TextTransfer I (2016 bis 2019) prototypisch entwickelten Methode zur automatisierten, nutzergerechten Erschließung von wissenschaftlichen Texten ab. 

Projektbeschreibung und Projektziele

Textbasierte Forschungsergebnisse werden nach Abschluss von Forschungsprozessen bzw. -projekten in der Regel in spezialisierten Gedächtnisorganisationen digital archiviert. Zahlreiche Maßnahmen zu Langzeitarchivierung mit den Schwerpunkten Standardisierung, Migrierbarkeit von Datenformaten und Auffindbarkeit haben in der Vergangenheit dazu geführt, dass solche Quellen digital und öffentlich zur Verfügung stehen. Eine nachträgliche Rezeption oder gar Anwendung der in diesen Berichten konzentrierten Erkenntnisse findet hingegen außerhalb wissenschaftlicher Zielgruppen jedoch oft nicht statt, da die inzwischen unüberschaubar gewordene Menge an Textdaten nicht mehr mit vertretbarem Aufwand erschlossen werden kann. Damit können Forschungseinrichtungen potenziell wertvolles Wissen meist nicht anwendungsgerecht bereitstellen. Das Projekt TextTransfer hat bereits im Rahmen einer ersten Pilotphase unter dem Namen TextTransfer I anhand von exemplarischen Projektabschlussberichten erfolgreich gezeigt, wie unter Verwendung linguistischer Methoden der Korpusanalyse und des maschinellen Lernens eine automatisierte Auswertung von messbaren, durch Wissenstransfer erzeugten wirtschaftlichen, technologischen, sozio-kulturellen, politisch-rechtlichen und/oder ökologischen Wirkungen (Impact) prinzipiell zu bewerkstelligen ist. Hierbei werden bestimmte, Impact indizierende sprachliche Texteigenschaften und textstrukturelle Zusammenhänge durch maschinell gewonnene, statistische Präzedenzen identifiziert und zu unterschiedliche Arten von Impact definierende Impactkategorien systematisiert. Infolgedessen wird eine gezielte Auslesbarkeit von textgebundenem Wissen den beteiligten Instituten künftig ermöglichen, eigene Erkenntnisse und Kompetenzen der Wissenschaft auch jenseits wissenschaftlicher Rezeption für den Wissenstransfer zu identifizieren und anzuwenden.

Um die Funktionalität der prototypisch entwickelten Methode für die wissenschaftliche Praxis aufzustellen, ist es Ziel in TextTransfer II, anhand institutstypischer, aus den spezifischen Profilen der beteiligten Partner hergeleiteter Anwendungsfälle zu zeigen, wie ausgehend von den Ergebnissen des Pilotprojektes formal und inhaltlich heterogene Textdaten anwendungsbezogen analysiert und der Einsatz der Methode in die Strukturen und organisatorischen Abläufe der beteiligten Häuser integriert werden. Daneben soll die Methode aber auch für Dritte, an Impact- und Transferauswertungen und -aktivitäten Interessierten prototypisch nutzbar gemacht werden.

Der Abschlussbericht des Pilotprojektes TextTransfer I kann in der Bibliothek der TIB unter https://www.tib.eu/de/suchen/id/TIBKAT:1747197327/TextTransfer-Pilot-korpusgestützte-Erkennung-von?cHash=f56c7df1117392f268358ce611858ca4 abgerufen werden.

Verbundpartner

Neben dem IDS ist an dem Transferprojekt als Verbundpartner die Technische Informationsbibliothek (TIB), Hannover, beteiligt, die ebenfalls Mitglied der Leibniz- Gemeinschaft ist.

Der Projektpartner IDS konzentriert sich im Rahmen von TextTransfer II auf die Entwicklung eines Kriterieninventars verwertungsrelevanter Zusammenhänge, die Vor- und Aufbereitung der Daten für das Maschinelle Lernen sowie auf die Adaption für die neu hinzukommenden Quelltypen und Domänen der in TextTransfer I entwickelten Softwarelösung und erarbeitet ein Implementierungs- und Kommunikationskonzept.

Gemeinsam mit dem Projektpartner TIB arbeitet das IDS an den technischen und rechtlichen Rahmenbedingungen, die die Nutzung der Methode unterstützt. Die Aufgabe der TIB ist es außerdem, einen bedarfsgerecht zugeschnittenen Korpus von Forschungsberichten als Stichprobe pro Domäne zur Verfügung zu stellen, diese, im PDF-Format vorliegenden Daten zu extrahieren und mittels eines automatisierten Prozesses in das Zielformat txt zu konvertieren. 

Unterstützt werden die Verbundpartner von den Unterauftragsnehmern Görgen & Köller GmbH und der Arbeitsgruppe um Prof. Dr. Jana Diesner der iSchool an der Universität von Illinios, Urbana-Champaign (UIUC).

Mitarbeiterinnen und Mitarbeiter: