(Semi-)Automatisierte thematische Textklassifikation

Das Projektteam mit Gästen des Bedarfsanalyse-Workshops 2024 am IDS

Das ab Juni 2024 DFG-geförderte Drittmittelprojekt schließt eine zentrale Lücke empirischer Sprachforschung in den digitalen Geistes-, Sozial- und Bildungswissenschaften. Dies betrifft die bislang fehlende themenbezogene Inhaltserschließung sehr großer Textkorpora. Durch enge Verzahnung von Informatik und Korpuslinguistik werden für höchst heterogene Textsorten und stark variierende Dokumentgrößen differenzierte Klassifikationen durchgeführt.

Primärer Gegenstand ist das am Leibniz-Institut für Deutsche Sprache (IDS) beheimatete Deutsche Referenzkorpus DeReKo. Mit derzeit über 50 Milliarden Wörtern stellt es die weltweit mit Abstand größte und meistgenutzte Forschungsressource deutschsprachiger Texte dar. Seine angestrebte inhaltliche Klassifikation ist hochrelevant für viele Nutzungsszenarien, angefangen mit der Stichprobenstratifizierung für (z.B. grammatisch, lexikalisch, pragmatisch motivierte) Fallstudien über die Erstellung vergleichbarer multilingualer Korpora bis hin zur Modellierung sprachlicher Variabilität. Voraussetzung dafür ist eine Stratifizierung nach Dimensionen wie Zeit, Modalität, Textgenre und Thema. Die drei erstgenannten lassen sich typischerweise unmittelbar aus den Quelldaten ermitteln. Dies gilt nicht für die äußerst relevante thematische Dimension.

Aufgrund der inhaltlichen Breite existieren keine geeigneten Ontologien zur thematischen Erschließung. Zudem mangelt es generell an explizit mit thematischen Metadaten ausgezeichneten Trainings- und Testdaten, was den Einsatz überwachter Machine-Learning-Verfahren erheblich einschränkt. Am Beispiel von DeReKo soll daher erstmals eine thematische Klassifikation für Big Corpus Data implementiert und evaluiert werden, die effizient, robust, offen (open source), dynamisch (kein statisches und damit rasch veraltendes Kategorieninventar) und vollständig nachnutzbar ist. Flankierend wird am Beispiel von Grammis die Adaption der erarbeiteten Verfahren an hochdetaillierte domänenspezifische Systematiken für die feingranulare Fachtexterschließung (hier: Fachdomäne Grammatik) erprobt.

Projektstandorte

Das Vorhaben ist an drei Standorten angesiedelt:

  • Goethe-Universität Frankfurt a. M.
    • Leitung: Prof. Dr. Alexander Mehler
  • Sächsische Akademie der Wissenschaften in Leipzig
    • Leitung: Prof. Dr. Gerhard Heyer
  • Leibniz-Institut für Deutsche Sprache in Mannheim
    • Leitung: Dr. Marc Kupietz, PD Dr. Roman Schneider