Kookkurrenz. Linguistisches Modell, Korpusmethodik, lexikografische Perspektiven
Abstract
Im Zentrum des Beitrags stehen die Möglichkeiten, die die computergestützte Analyse sehr großer Korpora für die Erkennung und Beschreibung von sprachlichem Usus bietet. Die empirische Basis dafür bildet die in den Neunzigerjahren am IDS entwickelte Korpusanalyseplattform COSMAS. Sie bietet - integriert in ein Onlinesystem - mehrere Komponenten:
- die IDS-Korpora, die mit knapp zwei Milliarden Textwörtern zurzeit größte Sammlung deutschsprachiger geschriebener Texte weltweit
- das Konzept von benutzerdefinierbaren dynamischen Korpora
- automatische Korpusanalysemethoden, die dem Menschen einen sinnvollen Zugang zu diesen sprachlichen Massendaten überhaupt erst ermöglichen
Ein solches komplexes Werkzeug ist die in COSMAS verfügbare und seit 1995 auch im Internet kostenlos nutzbare statistische Kookkurrenzanalyse. Sie erbringt wesentliche Vorstrukturierungsleistungen, indem sie Kookkurrenzpotenziale von Wörtern mathematisch-statistisch berechnet und visualisiert. Damit werden Präferenzsetzungen und Häufigkeitsbewertungen vorgenommen, wird Signifikantes ins Zentrum gerückt und Unspezifisches marginalisiert. Dieses Analysemodul ist nicht nur in der Lage, signifikante binäre Kookkurrenzrelationen automatisch zu erkennen, sondern auch weitergehende Auffälligkeiten und Festigkeiten in der Umgebung dieser Relationen (Kookkurrenzcluster), die oft auf signifikante Mehrwortverbindungen (u.a. auch gebräuchliche Idiome) hinweisen.
Der Beitrag stellt einen integrativen Ansatz vor, der im Kontext des lexikografischen Großvorhabens Wissen über Wörter (WiW) am IDS entwickelt wurde und Methoden der mathematisch-statistischen Kookkurrenzanalyse mit linguistischer Interpretation und lexikografischer Anwendung verbindet. Es soll vor allem deutlich werden, dass es dabei nie um das reine Berechnen von Kohäsionsphänomenen geht, sondern stets um eine Interaktion zwischen Mensch und Rechner, bei der die ordnende und interpretierende Hand des Linguisten unverzichtbar bleibt.
Nach einigen prinzipiellen Ausführungen zur Korpusbasiertheit ("Konsultationsparadigma" vs. "Analyseparadigma") wird die Anwendung der statistischen Kookkurrenzanalyse als heuristisches Arbeitsinstrument anhand von zahlreichen Beispielen demonstriert, von der statistischen Erhebung der Daten und der Visualisierung der Ergebnisse über die linguistische Systematisierung und Interpretation bis hin zur lexikografischen Aufbereitung und Vernetzung von Kookkurrenzangaben und Mehrwortlemmata in einem hypertextuellen Informationssystem. In einer terminologischen Zwischenbilanz wird u.a. auf das Verhältnis von "Kookkurrenz" und "Kollokation" aus korpusbasierter Sicht eingegangen. Schließlich wird ein Set offener Fragen diskutiert, die sich aus dem experimentellen Umgang mit Korpusmassendaten ergeben und die einen reflektierten Umgang mit den empirischen Methoden unabdingbar machen.