IDS-Logo
Startseite : : Über uns : : Jahrestagungen : : Jahrestagung 2006 : : Abstract

Prof. Dr. Anke Lüdeling

Das Zusammenspiel von qualitativen und quantitativen Methoden in der Korpuslinguistik

Abstract

Es gibt viele linguistische Forschungsfragen, für deren Beantwortung man Korpusdaten qualitativ und quantitativ auswerten möchte. Beide Auswertungsmethoden können sich auf den Korpustext, aber auch auf Annotationsebenen beziehen. Jede Art von Annotation, also Kategorisierung, stellt einen kontrollierten und notwendigen Informationsverlust dar. Das bedeutet, dass jede Art von Kategorisierung auch eine Interpretation der Daten ist. In den meisten großen Korpora wird zu jeder vorgesehenen Annotationsebene, wie z.B. Wortart-Ebene oder Lemma-Ebene, genau eine Interpretation angeboten. In den letzten Jahren haben sich neben den großen, ‚flach' annotierten Korpora Korpusmodelle herausgebildet, mit denen man konfligierende Informationen kodieren kann, die so genannten Mehrebenen-Modelle (multilevel standoff corpora), in denen alle Annotationsebenen unabhängig vom Text gespeichert werden und nur auf bestimmte Textanker verweisen.

Ich möchte in meinen Vortrag dafür argumentieren, dass zumindest Korpora, in denen es stark variierende Annotationsbedürfnisse und umstrittene Analysen geben kann (wie zum Beispiel historische Korpora, Lernerkorpora oder bestimmte Fachsprachenkorpora) davon profitieren, in Mehrebenen-Modellen kodiert zu werden. Dies erfordert aber eine Methodik für die Auswertung von teilweise konfligierenden Daten.

Anhand des Lernerkorpus Falko mit Texten von fortgeschrittenen Lernern des Deutschen als Fremdsprache und der Problematik der Fehlerannotation werde ich zeigen, wie sich unterschiedliche qualitative Interpretationen auf quantitative Studien auswirken können. Umgekehrt können quantitative Daten aus kontrastiven Vergleichen zwischen dem Lernerkorpus und einem korrespondierenden Muttersprachlerkorpus helfen, qualitative Schlüsse zu ziehen.