Methoden der Korpusanalyse und -erschließung

Multidimensionale Korpusanalysen

In diesem Teilprojekt werden Verfahren erforscht, mit deren Hilfe für ein gegebenes

Sprachphänomen überprüft werden kann, ob dieses Phänomen entlang bestimmter Dimensionen

eine auffällige Häufigkeitsverteilung aufweist, die für eine gegebene linguistische

Fragestellung relevant sein könnte. Hierzu zählen beispielsweise die Dimensionen Zeit,

Genre, Thema oder Stil. Unter sprachlichen Phänomenen verstehen wir hier alle

Objekte, deren Vorkommen in einer gegebenen Sprachstichprobe prinzipiell quantifizierbar

ist: von einzelnen Wörtern über komplexe Ausdrücke bis hin zu abstrakten syntaktischen

Strukturen oder kommunikativen Ereignissen.

Ergebnisse (Auswahl)

Relevante Forschungsaspekte

  • Typologie möglicher Dimensionen (lineare Ordnung, hierarchische Struktur, unstrukturiert)
  • universelle und dimensionsspezifische Analyseverfahren
  • ein- und mehrdimensionale Analysen
  • Handhabung von Epiphänomenen/Artefakten (Grundfrequenzeffekte, Textlängeneffekte, Sättigungseffekte)
  • Exploration und Evaluation in konkreten linguistischen Anwendungsszenarien

Aktuelle Arbeitsschwerpunkte

Die laufenden Forschungsarbeiten konzentrieren sich auf die Zeitdimension. Insbesondere

entstehen hierbei Methoden zur automatischen Detektion von Neologismuskandidaten, d.h.

von Wörtern, die eine für Neologismen typische diachrone Häufigkeitsverteilung

aufweisen. In einer hausinternen Kooperation mit dem Projekt

Lexikalische Innovationen werden diese

Methoden evaluiert und fortlaufend weiterentwickelt.

Publikationen (Auswahl)

Zurück zur Projektseite

Kontakt: Dr. Harald Lüngen <luengen@ids-...