IDS-Logo

Kontakt:
    <korpuslinguistik@ids-...>
 
Leitung:
    Cyril Belica <belica@ids-...>
 
Wissenschaftliche Mitarbeiter:
    Dr. Marc Kupietz <kupietz@ids-...>
    Dr. Harald Lüngen <luengen@ids-...>
    Rainer Perkuhn <perkuhn@ids-...>
 
Wissenschaftliche Hilfskräfte:
    z.Z. keine
 
Studentische Hilfskräfte:
    Sophie Hennig

Programmbereich Korpuslinguistik
Methoden der Korpusanalyse und -erschließung


Multidimensionale Korpusanalysen

In diesem Teilprojekt werden Verfahren erforscht, mit deren Hilfe für ein gegebenes Sprachphänomen überprüft werden kann, ob dieses Phänomen entlang bestimmter Dimensionen eine auffällige Häufigkeitsverteilung aufweist, die für eine gegebene linguistische Fragestellung relevant sein könnte. Hierzu zählen beispielsweise die Dimensionen Zeit, Genre, Thema oder Stil. Unter sprachlichen Phänomenen verstehen wir hier alle Objekte, deren Vorkommen in einer gegebenen Sprachstichprobe prinzipiell quantifizierbar ist: von einzelnen Wörtern über komplexe Ausdrücke bis hin zu abstrakten syntaktischen Strukturen oder kommunikativen Ereignissen.

Relevante Forschungsaspekte

  • Typologie möglicher Dimensionen (lineare Ordnung, hierarchische Struktur, unstrukturiert)
  • universelle und dimensionsspezifische Analyseverfahren
  • ein- und mehrdimensionale Analysen
  • Handhabung von Epiphänomenen/Artefakten (Grundfrequenzeffekte, Textlängeneffekte, Sättigungseffekte)
  • Exploration und Evaluation in konkreten linguistischen Anwendungsszenarien

Aktuelle Arbeitsschwerpunkte

Die laufenden Forschungsarbeiten konzentrieren sich auf die Zeitdimension. Insbesondere entstehen hierbei Methoden zur automatischen Detektion von Neologismuskandidaten, d.h. von Wörtern, die eine für Neologismen typische diachrone Häufigkeitsverteilung aufweisen. In einer hausinternen Kooperation mit dem Projekt Lexikalische Innovationen werden diese Methoden evaluiert und fortlaufend weiterentwickelt.

Ergebnisse (Auswahl)

  • diverse formale Maße, die aufgrund der diachronen Häufigkeitsverteilung eines Wortes die Zuversicht quantifizieren, dass es sich dabei um einen Neologismuskandidaten handelt
  • diverse Filter, die bekannte Gruppen von eindeutigen Nichtneologismen erkennen (Regionalismen, Eigennamen, redaktionelle Kürzel, ...)
  • eine empirisch erstellte Typologie der diachronen Häufigkeitsverteilung verifizierter Neologismen
  • als Zwischenergebnis für diese Typologie: systematische Erstellung von Zeitverlaufsgrafiken zum Online-Neologismenwörterbuch des IDS-Projekts Lexikalische Innovationen (vgl. Online-Dokumentation)

Publikationen (Auswahl)

Zurück zur Projektseite


Kontakt:
Dr. Holger Keibel <keibel@ids-...>