Methoden der Korpusanalyse und -erschließung
Multidimensionale Korpusanalysen
In diesem Teilprojekt werden Verfahren erforscht, mit deren Hilfe für ein gegebenes
Sprachphänomen überprüft werden kann, ob dieses Phänomen entlang bestimmter Dimensionen
eine auffällige Häufigkeitsverteilung aufweist, die für eine gegebene linguistische
Fragestellung relevant sein könnte. Hierzu zählen beispielsweise die Dimensionen Zeit,
Genre, Thema oder Stil. Unter sprachlichen Phänomenen verstehen wir hier alle
Objekte, deren Vorkommen in einer gegebenen Sprachstichprobe prinzipiell quantifizierbar
ist: von einzelnen Wörtern über komplexe Ausdrücke bis hin zu abstrakten syntaktischen
Strukturen oder kommunikativen Ereignissen.
Ergebnisse (Auswahl)
- Visualisierung von Frequenzentwicklungen im semantischen Kontext
- Systematische Erstellung von Zeitverlaufsgrafiken zum Online-Neologismenwörterbuch des IDS-Projekts Neuer Wortschatz (s. auch die Online-Dokumentation für OWID)
- eine empirisch erstellte Typologie der diachronen Häufigkeitsverteilung verifizierter Neologismen
- diverse formale Maße, die aufgrund der diachronen Häufigkeitsverteilung eines Wortes die Zuversicht quantifizieren, dass es sich dabei um einen Neologismuskandidaten handelt
- diverse Filter, die bekannte Gruppen von eindeutigen Nichtneologismen erkennen (Regionalismen, Eigennamen, redaktionelle Kürzel, ...)
Relevante Forschungsaspekte
- Typologie möglicher Dimensionen (lineare Ordnung, hierarchische Struktur, unstrukturiert)
- universelle und dimensionsspezifische Analyseverfahren
- ein- und mehrdimensionale Analysen
- Handhabung von Epiphänomenen/Artefakten (Grundfrequenzeffekte, Textlängeneffekte, Sättigungseffekte)
- Exploration und Evaluation in konkreten linguistischen Anwendungsszenarien
Aktuelle Arbeitsschwerpunkte
Die laufenden Forschungsarbeiten konzentrieren sich auf die Zeitdimension. Insbesondere
entstehen hierbei Methoden zur automatischen Detektion von Neologismuskandidaten, d.h.
von Wörtern, die eine für Neologismen typische diachrone Häufigkeitsverteilung
aufweisen. In einer hausinternen Kooperation mit dem Projekt
Lexikalische Innovationen werden diese
Methoden evaluiert und fortlaufend weiterentwickelt.
Publikationen (Auswahl)
- Fankhauser, Peter / Kupietz, Marc (2017): Visualizing Language Change in a Corpus of Contemporary German. Corpus Linguistics Conference, Birmingham.
- Keibel, Holger (2009): Mathematische Häufigkeitsmaße in der Korpuslinguistik: Eigenschaften und Verwendung. (Erw. und überarb. 2. Aufl.). Mannheim: Institut für Deutsche Sprache.
- Keibel, Holger / Sophie Hennig / Rainer Perkuhn (2011): Effiziente halbautomatische Detektion von Neologismuskandidaten. Technical Report IDS-KL-2010-01. Mannheim: Institut für Deutsche Sprache.
Kontakt: Dr. Harald Lüngen <luengen@ids-...>