KorAP - Korpusanalyseplattform der nächsten Generation

KorAP ist eine neue Korpusanalyseplattform, optimiert für große, mehrfach annotierte Korpora und komplexe Suchmechanismen. Sie können hier mit KorAP in DeReKo recherchieren.

Hintergrund

Ziel des Projektes KorAP ist es, eine neuartige Korpusanalyseplattform nachhaltig zur Verfügung zu stellen, die eine Grundlage für den methodisch validen Umgang mit very large corpora im Bereich der Sprachwissenschaft und insbesondere der empirisch ger­manistischen Forschung schafft. Anschubfinanziert wurde das Projekt von der Leibniz- Gemeinschaft (Sparte Risiko-Forschung und -Entwicklung; Mitte 2011 bis 2014) als Kooperation der Programmbereiche Forschungskoordination und Forschungsinfrastrukturen und Korpuslinguistik nun wird es als Langzeitprojekt ("Recherchesysteme") im Programmbereich Korpuslinguistik fortgeführt.

Systematisch zusammengestellte, elektronische Sammlungen von aufgezeichneten Kommunikationsakten, so genannte Korpora, sind mittlerweile die wichtigste empirische Grundlage der Sprachwissenschaft. Sie werden zur Bestätigung oder Widerlegung von Hypothesen verwendet und dienen auch als unmittelbarer Gegenstand explorativer Forschungsarbeiten. Gerade um große Korpora für Sprachwissenschaftler handhabbar zu machen, sind geeignete Werkzeuge unabdingbar, die in der Lage sind, sehr große Datenmengen verlustfrei zu verwalten und rechenintensive Funktionen für ihre methodisch valide Analyse anzubieten.

Mit dem Archiv für Gesprochenes Deutsch (AGD) und dem Deutschen Referenzkorpus (DeReKo) lagern am Institut für Deutsche Sprache die weltweit größten Sammlungen deutscher Sprachdaten. Um insbesondere auf Letzteres zugreifen zu können, wurde am IDS das Corpus Search, Management and Analysis System (COSMAS I und COSMAS II) geschaffen, das sich seit 1991 bzw. 2003 im Dauerbetrieb bewährt hat. Da auch COSMAS II jedoch bereits Anfang der Neunziger Jahre konzipiert wurde und der Arbeitsaufwand, derartige Software zu erweitern, mit steigender Lebensdauer und Komplexität überproportional steigt, wird es zunehmend schwieriger, die Software an die sich rasch wandelnden Bedarfe anzupassen. Indes haben sich sowohl die technischen als auch die wissenschaftlichen Rahmenbedingungen derart stark verändert, dass die Entwicklung eines neuartigen Analyse-Tools erstrebenswert ist.

Neue Herausforderungen

In den letzten Jahren sind innerhalb der Linguistik neue Tendenzen zu beobachten, die Anpassungen an die bisher in der Forschung angewandten Methoden und Werkzeugen nach sich ziehen werden. Mit dem durchschlagenden Erfolg und der zunehmenden Verbreitung von eScience innerhalb der Geisteswissenschaften ("eHumanities") ist eine verstärkte "Empirisierung" oder "Verwissenschaftlichung" einhergegangen. Hierbei ist nicht nur eine wachsende Bedeutung von Forschungsdaten zu beobachten, vielmehr legen Linguisten auch gesteigerten Wert auf die Handhabbarkeit und Anwendbarkeit von wissenschaftlichen Maximen wie Falsifizierbarkeit und Reproduzierbarkeit von Forschungsergebnissen. Dass man im Zuge dieser Tendenzen immer stärker darauf bedacht ist, die ermittelten Forschungsdaten trotz zunehmenden Datenmengen und stark dynamisierter Korpora persistent zu verwerten, tritt deutlich anhand des gesteigerten Bedürfnisses nach deren Nachvollziehbarkeit und Replizierbarkeit zutage. Der dringende Wunsch der Wissenschaft, Daten kollaborativ bearbeiten und die zur Bearbeitung herangezogene Software standortunabhängig einsetzen zu können, manifestiert sich zurzeit in der Entstehung verteilter Forschungsinfrastrukturen wie z.B. CLARIN/D-SPIN und TextGrid. Für das geplante System bedeutet dies insbesondere, dass es Schnittstellen für solche verteilten Infrastrukturen bereitstellen muss, auf Grundlage derer u. a. eine föderierte Suche und Analyse, die nachnutzbare Definition von distribuierten virtuellen Korpora und Such- und Analyseschemata sowie die Rückeinspeisung von Benutzerannotationen realisiert werden kann.

Qualitativ neue Anforderungen ergeben sich aus dem immensen Wachstums von Korpora im Allgemeinen und DeReKo im Besonderen. Während das datengetriebene Analyseparadigma bis vor einiger Zeit im Wesentlichen nur für die Lexikologie relevant war, können heute auf der Grundlage sehr großer Stichproben komplexere sprachliche Muster und Strukturen aufgedeckt und auch in Abhängigkeit anderer Faktoren (z.B. Zeit, Herkunft) analysiert werden. Dies zeigt sich zurzeit nicht nur in aktuellen Tendenzen in der Grammatikforschung, die z.B. in der neuen Konferenzreihe Grammar and Corpora vorgestellt werden, sondern auch in der linguistischen Theoriebildung insgesamt, etwa durch neue Zeitschriften wie Corpus Linguistics and Linguistic Theory. Die Konsequenzen betreffen neben der Notwendigkeit der Implementation aufwändigerer multidimensionaler Analyseverfahren vor allem auch die wissenschaftlich zuverlässige Unterstützung neuer Forschungsmethoden. Hierunter fallen insbesondere auch solche Strategien, die verschiedene Ansätze miteinander kombinieren und sowohl datengeleitet als auch hypothesenbasiert oder in gleicher Weise mit Primärdaten und mit interpretativen Sekundärdaten, wie automatisch erzeugten linguistischen Annotationen, arbeiten.

Abgesehen von methodischen Herausforderungen ist die Korpuslinguistik immer stärker mit der Anforderung konfrontiert, mit Sprachdaten unterschiedlicher Modalität umgehen zu können. Multimodale Ressourcen, wie etwa digitale Auszeichnungen gesprochener Sprache, gehören inzwischen fest zum Quellenmaterial der Forschung und bedürfen ebenfalls der systematischen Bearbeitung nach etablierten Methoden. Auch dies soll die zu entwickelnde Plattform leisten.

KorAP aus der Benutzersicht

Die neue Korpusanalyseplattform soll alle Leistungen der IDS-Korpus­recherche­werkzeuge COSMAS I und COSMAS II übernehmen und somit die bewährten und geschätzten Funktionalitäten seiner Vorgänger weiterhin unterstützen. Mehr dazu unter COSMAS I und COSMAS II.

Zusätzlich wird das in der Entwicklung befindliche System seinen Benutzern viele neue nützliche und attraktive Funktionalitäten anbieten können. Geplant sind unter anderem:

  • Erweiterung der Möglichkeiten für die virtuelle Korpuskomposition durch die Einbeziehung von Metadaten und textinhaltlichen Eigenschaften
  • Verbesserung der Anfragesprache durch den Einsatz von regulären Ausdrücken
  • Erweiterung der Suchanfragesyntax für ein unkompliziertes Recherchieren in Mehrebenen­annotationen (multi-layer queries)
  • grafische Darstellung der Suchergebnissevielfältige Möglichkeiten für das Sortieren der Treffer
  • noch schnellere Bearbeitung von noch größeren Datenmengen

Personal

Kontakt:
<korap@ids-...>
Mitarbeiter:
Ehemalige Mitarbeiter:
Dr. Piotr Bański <banski@ids-...>
Elena Frick <frick@ids-...>
Michael Hanl
Carsten Schnober