Programmbereich Korpuslinguistik
Kontakt:
<korpuslinguistik@ids-...>
Leitung:
Cyril Belica <belica@ids-...>
Wissenschaftliche Mitarbeiter:
Dr. Marc Kupietz <kupietz@ids-...>
Dr. Harald Lüngen <luengen@ids-...>
Rainer Perkuhn <perkuhn@ids-...>
Wissenschaftliche Hilfskräfte:
z.Z. keine
Studentische Hilfskräfte:
Sophie Hennig
Programmbereich Korpuslinguistik
Methoden der Korpusanalyse und -erschließung
Multidimensionale Korpusanalysen
In diesem Teilprojekt werden Verfahren erforscht, mit deren Hilfe für ein gegebenes Sprachphänomen überprüft werden kann, ob dieses Phänomen entlang bestimmter Dimensionen eine auffällige Häufigkeitsverteilung aufweist, die für eine gegebene linguistische Fragestellung relevant sein könnte. Hierzu zählen beispielsweise die Dimensionen Zeit, Genre, Thema oder Stil. Unter sprachlichen Phänomenen verstehen wir hier alle Objekte, deren Vorkommen in einer gegebenen Sprachstichprobe prinzipiell quantifizierbar ist: von einzelnen Wörtern über komplexe Ausdrücke bis hin zu abstrakten syntaktischen Strukturen oder kommunikativen Ereignissen.
Relevante Forschungsaspekte
- Typologie möglicher Dimensionen (lineare Ordnung, hierarchische Struktur, unstrukturiert)
- universelle und dimensionsspezifische Analyseverfahren
- ein- und mehrdimensionale Analysen
- Handhabung von Epiphänomenen/Artefakten (Grundfrequenzeffekte, Textlängeneffekte, Sättigungseffekte)
- Exploration und Evaluation in konkreten linguistischen Anwendungsszenarien
Aktuelle Arbeitsschwerpunkte
Die laufenden Forschungsarbeiten konzentrieren sich auf die Zeitdimension. Insbesondere entstehen hierbei Methoden zur automatischen Detektion von Neologismuskandidaten, d.h. von Wörtern, die eine für Neologismen typische diachrone Häufigkeitsverteilung aufweisen. In einer hausinternen Kooperation mit dem Projekt Lexikalische Innovationen werden diese Methoden evaluiert und fortlaufend weiterentwickelt.
Ergebnisse (Auswahl)
- diverse formale Maße, die aufgrund der diachronen Häufigkeitsverteilung eines Wortes die Zuversicht quantifizieren, dass es sich dabei um einen Neologismuskandidaten handelt
- diverse Filter, die bekannte Gruppen von eindeutigen Nichtneologismen erkennen (Regionalismen, Eigennamen, redaktionelle Kürzel, ...)
- eine empirisch erstellte Typologie der diachronen Häufigkeitsverteilung verifizierter Neologismen
- als Zwischenergebnis für diese Typologie: systematische Erstellung von Zeitverlaufsgrafiken zum Online-Neologismenwörterbuch des IDS-Projekts Lexikalische Innovationen (vgl. Online-Dokumentation)
Publikationen (Auswahl)
-
Keibel, Holger (2009): Mathematische Häufigkeitsmaße in der Korpuslinguistik: Eigenschaften und Verwendung. (Erw. und überarb. 2. Aufl.). Mannheim: Institut für Deutsche Sprache.
http://www.ids-mannheim.de/kl/dokumente/freqMeasures.html
