Methoden der Korpusanalyse und -erschließung
Forschungsgegenstand
Der Gegenstand des Projektes ist die wissenschaftliche Erforschung der Methodik zur quantitativen und qualitativen Annalyse von sehr großen Korpora und die Modellierung der Prozesse linguistischer und allgemein kognitiver Interpretation der in der lexikalischen Ebene auftretenden Erwartbarkeiten.
Die bei dieser methodologischen Forschungsarbeit gewonnenen Generalisierungen werden im Projekt auf wissenschaftstheoretischer Ebene reflektiert und in die Diskussion der linguistischen Theoriebildung eingebracht.
Eigene Vorarbeiten
Das Projekt baut auf systematische Weise eigene Forschungsergebnisse aus den vergangenen Jahren aus. Dies betrifft vor allem den Bereich der Kookkurrenzanalyse und die darauf aufbauenden Untersuchungen zur Synonymie, zu syntagmatischen Mustern, zur semantischen Nähe und zur Modellierung von Verwendungsaspekten, sowie das Vorgehensmodell zur systematischen linguistischen Interpretation von Analyseergebnissen und die sprach- und wissenschaftstheoretischen Beiträge zur emergenten Natur der Ontologie von lexikalisch-semantischen Relationen, zum theoretischen Status von Kookkurrenzen höherer Ordnungen und von Kookkurrenzschemata vor dem Hintergrund konstruktionsgrammatischer Ansätze oder zur erkenntnistheoretischen Grundlagen und Implikationen korpusbasierter Grammatikforschung im Spannungsfeld zwischen Erfahrbarkeit, Kognition, Erfahrung und Konvention.
Historisch knüpft das Projekt an das im Projekt COSMAS I formulierte korpuslinguistische Gesamtkonzept der COSMAS-Plattform und an die darin während der Projektlaufzeit zwischen 1991 und 2003 erreichten Lösungsstrategien und -ergebnisse an.
Aktuelle Schwerpunkte
- Kookkurrenzanalyse und deren Erschließung
s. kurzes Tutorial , Kookkurrenzdatenbank CCDB , Paper zur CCDB (pdf, 345K, englisch) - Multidimensionale Korpusanalysen (u.a. Methoden der Neologismuserkennung)
- Korpusbasierte Grund-/Wortformenlisten ( DeReWo )
- Paradigmatische Variation
- Samplingstrategien für synchrone Korpora
- Erschließungsmethodik
- Lexikalische Semantik
- Paronymie
- Konzeptuelle Weiterentwicklung von Korpusrecherchetools
Weitere Arbeitspakete
- Quantitative Analysen der deutschen Lexik
- Thematische Erschließung der Korpora
- Lemmatisierung
- Kurzstudien
Theoretischer Rahmen
Das Interesse der theoretischen Linguistik an den quantitativ-empirischen Ansätzen der Korpuslinguistik nimmt rapide zu. Es wird immer deutlicher, dass unerwartet viele, wenn nicht gar alle systemisch-strukturellen Eigenschaften natürlicher Sprachen sich im Spannungsfeld mehrerer konkurrierender, teilweise entgegengesetzt zueinander wirkender Prinzipien konstituieren und in theoretischen Modellen letztendlich nur durch unscharfe, präferenzrelationale Bedingungen angemessen erfasst werden können.
Die Häufigkeitsverteilung von sprachlichen Phänomenen findet neben den traditionell empirisch arbeitenden Disziplinen wie Lexikographie, Sprachdidaktik oder Entwicklungspsychologie auch in den aktuellen Arbeiten der kognitiven und der theoretischen Linguistik zunehmend Beachtung.
Rasante Fortschritte der Mathematik im Bereich strukturentdeckender Transformationen gestatten es der Korpuslinguistik, immer komplexere sprachliche Phänomene quantitativen Untersuchungen zu unterziehen, eine Vorgehensweise, zu der sich eine Analogie z. B. in der erfolgreichen Anwendung verwandter Verfahren für die wissenschaftliche Klassifikation und für die Theoriebildung in der Genforschung findet.
Kontakt:
<korpuslinguistik(at)ids-...>
Leitung:
Dr. Marc Kupietz <kupietz(at)ids-...>
Wissenschaftliche Mitarbeiter:
Dr. Peter Fankhauser <fankhauser(at)ids-...>
Tim Feldmüller <feldmueller(at)ids-...>
Dr. Harald Lüngen <luengen(at)ids-...>
Rainer Perkuhn <perkuhn(at)ids-...>
Studentische Hilfskräfte:
Nicolas Arnold