Jonas Kuhn (Universität Stuttgart)

Analysierte Parallelkorpora für die sprachvergleichende Grammatik: Was können computerlinguistische Methoden leisten?

Abstract

Sorgfältig handannotierte Korpora bieten ohne Zweifel den zuverlässigsten Zugang zu empirischen Sprachdaten in der sprachwissenschaftlichen Forschung -- idealerweise bei einer Struktur- und Kategorienannotation, die unmittelbar den Annahmen des eigenen Forschungsansatzes entspricht. Spätestens jedoch wenn das Zusammenspiel von eher selten verwendeten Konstruktionen oder lexikalischen Einheiten in großen Datenmengen explorativ gesichtet werden soll, erweist sich ein solcher Anspruch als unrealistisch. Und so ist der Minimalansatz -- Google-Suche im gesamten Internet -- trotz aller seiner Schwächen weit verbreitete Praxis.

Einige computerlinguistische Werkzeuge wie automatische Part-of-Speech-Tagger sind mittlerweile bei der Korpusaufbereitung weit verbreitet und erleichtern die explorative Suche erheblich -- trotz der unvermeidlichen gelegentlichen Annotationsfehler. In diesem Vortrag sollen darüber hinausgehende automatische Werkzeuge für anspruchsvollere Annotationsaufgaben diskutiert werden, die gerade bei der Arbeit mit Parallelkorpora interessante Blickwinkel eröffnen können: In den letzten Jahren hat die computerlinguistische Forschung erhebliche Fortschritte bei der Entwicklung von robusten Analysemethoden gemacht beispielsweise für die Satzstrukturanalyse und für die automatische Wortzuordnung bei übersetzten Texten. Wie diese Fortschritte für die linguistische Korpusarbeit auf breiter Basis nutzbar gemacht werden können, ist noch in mancher Hinsicht offen. Der Vortrag soll aufzeigen, was aus computerlinguistischer Sicht möglich ist, an welchen Stellen Klärungsbedarf für eine effektive Anwendbarkeit besteht und wie zukünftig möglicherweise verstärkt Einfluss auf die Annotationsqualität genommen werden kann.