Sprachkorpora

Datenmengen und Erkenntnisfortschritt

14.-16. März 2006

Mit der Themenwahl für die 42. Jahrestagung (14.-16. März 2006) greift das IDS ein Thema auf, das gegenwärtig in der Fachdiskussion zunehmend in den Vordergrund rückt.

Große Sprachkorpora werden für die Arbeit der Linguistik immer wichtiger. Das Beschaffen, Dokumentieren und Archivieren von Sprachdaten gehört seit jeher zu den arbeitsaufwändigen, aber unverzichtbaren Tätigkeiten sprachwissenschaftlicher Forschung. Aber seit einer Reihe von Jahren werden weltweit große Forschungsunternehmen dem Aufbau großer Korpora, u.a. auch von schwer zu beschaffenden Sprachmaterialien, z.B. von bedrohten Sprachen, der Theorie von Daten und Korpora ebenso wie der Entwicklung von Verfahren der Korpusanalyse gewidmet.

In dieser Intensivierung von Korpusaufbau und Korpusanalyse wird zum einen die technische Entwicklung sichtbar, die heute korpustechnologische Werkzeuge zur Verfügung stellt, die einen relativ komfortablen Umgang mit großen Datenmengen erlauben. Zum anderen zeigt sich in der verstärkten Zuwendung zu korpuslinguistisch gestützten Untersuchungen teilweise auch eine Veränderung der theoretischen und methodischen Orientierung der Linguistik. Die Situation stellt sich in dieser Hinsicht allerdings für die verschiedenen linguistischen Teilbereiche unterschiedlich dar.

Mit der Verfügbarkeit von geschriebenen Texten in elektronischer Form wird es leichter, große Textkorpora zusammenzustellen - wenn man einmal von den teilweise dornigen Fragen des Copyrights absieht. Die Größe von schriftlichen Korpora, soweit sie sich auf öffentliche Texte konzentrieren, wächst geradezu explosionsartig im Vergleich mit den Korpora der 1970er Jahre. Für die gesprochene Sprache ist die Lage in dieser Hinsicht völlig anders. Die Aufnahme und Speichertechnik für Ton und auch Video ermöglicht heute ebenfalls auf einfache Weise Sprachaufnahmen "im Feld", d.h. in natürlichen Kommunikationssituationen. Außerdem wird öffentlich gesprochene Sprache von den Medien Rundfunk und Fernsehen in großer Menge verbreitet, in etwa vergleichbar dem öffentlichen Markt der gedruckten Texte. Und auch die verfügbaren und finanzierbaren Speichermedien für Ton und ggf. Ton und Bild erlauben heute eine "massenhafte" Speicherung solcher Daten. Aber die Korpora sind kaum linguistisch auswertbar ohne Verschriftlichung des Gesprochenen. Die Transkription ist gleichsam das Nadelöhr, durch das mündlichen Sprachdaten gezwängt werden müssen, um als Analysegrundlage dienen zu können. Und Verschriftlichung ist sehr aufwändig. So wundert es nicht, dass die schriftlichen Korpora ungleich schneller wachsen als die mündlichen.

Hinsichtlich der theoretisch-methodologischen Orientierungen und ihres Wandels ist die Ausgangslage für die einzelnen linguistischen Teildisziplinen unterschiedlich.

Untersuchungen zur gesprochenen Sprache haben seit jeher empirische Beobachtung, Datengewinnung und Korpusanalyse zur Grundlage und arbeiten, abgesehen von frühen dialektologischen Erhebungen vor der Einsetzbarkeit von Tonaufnahmegeräten, mit Korpora von - häufig in Interviews und Befragungen elizitierten - Daten gesprochener Sprache. Die Gesprächsforschung ist in besonders strikter Weise auf Korpora von Ton- und Video-Aufnahmen aus "natürlichen" Kommunikationssituationen orientiert, und Interviews interessieren vor allem als Typ sprachlicher Interaktion. Ein wichtiger Arbeitsschritt ist auch in diesem Arbeitsgebiet die Datenbeschaffung im Rahmen von Feldforschung, oft in sozial schwer zugänglichen Kontexten. Oft bindet die Beschaffung von aussagekräftigen Daten und deren Aufbereitung bereits einen erheblichen Teil der verfügbaren Kräfte. Die Auswertung von großen Datenmengen, ggf. auch mit Verfahren der quantitativen Analyse steht hier noch am Anfang.

Für die grammatische Forschung erweisen sich zunehmend die in großen Korpora anzutreffenden Variationsphänomene und - zumindest auf den ersten Blick - auffälligen und irregulär erscheinenden Äußerungsstrukturen als wichtige Informationsquelle. Insofern hat sich eine Entwicklung hin zur korpusbasierten Arbeit etabliert. Trotzdem wird eine Beschreibung der Grammatik der deutschen Standardsprache mit der faktischen Variation im Korpus anders umgehen als z.B. die Soziolinguistik und andere, grundsätzlich auf die Erfassung von Sprachvariation ausgerichtete Arbeitsgebiete. Es ist noch zu prüfen, ob auf kompetenzbasierte Entscheidungen über Grammatikalität unter Umständen verzichtet werden kann.

Für Lexik / Lexikographie schließlich gehört es heute zum Standard, mit Unterstützung durch große maschinenlesbare Korpora zu arbeiten - allerdings, bedingt durch die verfügbaren Korpora, praktisch exklusiv mit schriftlichen Texten.

Das Programm der nächsten Jahrestagung des IDS wird insbesondere theoretische und methodische Fragen zu Aufbau und Nutzung großer Korpora ins Zentrum stellen. Diese Fragen sollen aus der Sicht verschiedener linguistischer Teildisziplinen wie Grammatik, Lexik / Lexikographie und Pragmatik / Soziolinguistik beleuchtet werden. In enger Verbindung damit werden auch Fortschritte und Aussichten der Korpusanalyse aus informatischer Sicht diskutiert. Hier geht es u.a. darum, ob und wann die Arbeit mit "reinen Daten" oder die Anreicherung von Korpora mit Interpretationen (Annotation) sinnvoller ist und welche Möglichkeiten quantitative und wissenbasierte Auswertungsverfahren bieten.

Das Programm der Jahrestagung 2006 wird ergänzt durch Präsentationen von unterschiedlichen Korpussystemen und Auswertungsprogrammen.

Teilnehmer der Jahrestagung können mit der Anmeldung das IDS-Jahrbuch 2006, das die Beiträge der Jahrestagung sammelt, zu einem Sonderpreis von 30,- EUR bestellen.

Programm

Anmeldungen sind nur noch vor Ort möglich

Tagungsort
Bürgersaal
Stadthaus Mannheim
N1, am Paradeplatz
Mannheim

Weitere Informationen zur 42. Jahrestagung: jahrestagung(at)ids-mannheim.de

Sprachkorpora

Datenmengen und Erkenntnisfortschritt

Organisationsstruktur

Informationen

Schnelleinstieg

Kontakt

Social Media