Methoden der Korpusanalyse und -erschließung: Multidimensionale Korpusanalysen

Programm-Infrastruktur für die Generierung von Zeitverlaufsgrafiken

Auf diesen Seiten präsentieren wir Konzepte, Funktionalitäten und Ergebnisse unserer Programm-Infrastruktur zur Generierung von Zeitverlaufsgrafiken (ZVGs) aus dem Deutschen Referenzkorpus DeReKo. Die Dimension Zeit ist ein Schwerpunkt des Teilprojekts

Multidimensionale Korpusanalysen (MDCA) im Projekt Methoden der Korpusanalyse und -erschließung des Programmbereichs Korpuslinguistik.

Der Schwerpunkt Zeit ergab sich u.a. durch die langjährige Kooperation mit dem Projekt Lexikalische Innovationen der Abteilung Lexik. Im Rahmen dieser Kooperation wurden ZVGs für Neologismen des Deutschen für Online- und für Buchpublikation zweier Neologismenwörterbücher generiert. Aus unserer Perspektive sind somit Neologismen ein geeigneter Anwendungsbereich unserer MDCA- bzw. ZVG-Modelle. Ein weiterer geplanter Anwendungsbereich betrifft die zeitliche Entwicklung von Schreibvarianten.

1 Theoretischer Hintergrund

Grundlage sind die mathematischen Häufigkeitsmaße in der Korpuslinguistik.

2 MDCA-Korpus

Die ZVG-Infrastruktur operiert auf einem vordefinierten oder benutzerdefinierten, virtuellen Korpus, das in COSMAS II zur Verfügung steht (s.Abb.). Was für ein Korpus sich für die Beobachtung der zeitlichen Entwicklung von Sprachphänomenen eignet, hängt jeweils von dem Anwendungskontext und der Forschungsfrage ab. Für die Darstellung der zeitlichen Entwicklung von Neologismen wurde ein Zeitungskorpus mit den Texten von 30 Tages- und Wochenzeitungen aus Deutschland, Österreich und der Schweiz seit 1990 definiert. Die Beschränkung auf Zeitungstexte war vor allem darin begründet, dass die Alltagssprache untersucht werden sollte und Zeitungen diese im besonderen Maße repräsentieren, etwa im Vergleich zu Fachtexten oder Lyrik. Im Übrigen ist die Entstehungszeit eines Zeitungstextes in den allermeisten Fällen auf den Tag genau bekannt. In der ZVG-Infrastruktur sind der Name des gewünschten Korpus in COSMAS sowie die Zugangsdaten eines COSMAS-Benutzers, dem dieses Korpus zur Verfügung steht, anzugeben.

3 ZVG-Infrastruktur

Die ZVG-Infrastruktur ist in perl programmiert. Über Schnittstellen spricht sie das Korpusrecherchesystem COSMAS-II, den Funktionenplotter gnuplot und den R-Interpreter an.

Die ZVG-Infrastruktur erhält als Eingabe eine Liste von sprachlichen Phänomenen und legt als Ausgabe für jedes Phänomen eine Menge von  Häufigkeitsverteilungen (aller in >Keibel (2009) dargestellten Häufigkeitsmaße), ZVGs jedes der unten beschreibenen Typen sowie HTML-Seiten für ihre Präsentation an. Die "sprachlichen Phänomene" müssen als >COSMAS-II Script-Suchausdrücke kodiert sein. Sprachliche Phänomene sind im einfachsten Fall einzelne Wortformen, können aber auch Lemmata, Lexeme, Mehrworteinheiten, Phraseologismen oder längere Zeichenketten sein, in dem Sinne, wie man sie als COSMAS II-Suchausdrücke formulieren kann.

Das Formulieren geeigneter Suchanfragen ist eine anspruchsvolle Aufgabe, für die die notwendige linguistische Expertise und eine Beherrschung der Suchanfragesprache vorausgesetzt wird. In dem Artikel Lüngen/Keibel (2013) werdendie Anforderungen anhand von Beispielen näher beschrieben. Außer den Häufigkeitsverteilungen und den globalen Häufigkeitsklassen für die einzelnen Anfragen legt die Infrastruktur Statistiken über das MDCA-Korpus, die jahresbezogenen Teilkorpora und die Vorkommen des Referenzwortes de- (bestimmter Artikel, href="/fileadmin//digspra/kl/dokumente/freqMeasures#HKlasse" >für die Berechnung der Häufigkeitsklasse) an.

4 Typen von Zeitverlaufsgrafiken

4.1 Typen nach Häufigkeitsmaß

Typ A - Säulendiagramm mit relativer Häufigkeit in Prozent und Mittelwert

Dieser Grafiktyp präsentiert den Zeitverlauf als klassisches Säulendiagramm. Auf der y-Achse ist die relative Gebrauchshäufigkeit in Prozent aufgetragen, auf die x-Achse die gewählten Zeiteinheiten, in diesem Fall Jahre, so dass jeder Balken die relative Haufigkeit des Vorkommens des sprachlichen Phänomens (hier das Lexem mailen) im jahresbezogenen Teilkorpus anzeigt. Zur weiteren Orientierung wird der Mittelwert der relativen Häufigkeiten als Gleitkommazahl in einem separaten kleinen Rahmen angezeigt sowie als rote Linie quer hinter den Balken markiert, so dass auch die Abweichungen vom Durchschnitt visuell gut erfasst werden können. Auf der y-Achse sieht man, dass die Angabe der relativen Häufigkeit in Prozent zu sehr kleinen Werten führt, die aus Platz- und Lesbarkeitsgründen teilweise in Exponenzialschreibweise angegeben werden.

Die relativen Häufigkeiten verschiedener Wörter befinden sich in der Regel in unterschiedlichen Wertebereichen, d.h. die y-Achse stellt einen unterschiedlichen Zahlenbereich dar, der jeweils von 0 bis zu einem ymax reicht; im rechts gezeigten Beispiel ist ymax=0,0007 %. Das hat zur Folge, dass die Darstellungen der Zeitverläufe zweier verschiedener Wörter mit relativen Häufigkeiten nicht unmittelbar miteinander vergleichbar sind.

 

Typ B - Säulendiagramm mit relativer Häufigkeit in IpM und Mittelwert

Dieser Grafiktyp ist identisch mit dem Grafiktyp A, mit der Ausnahme, dass die relative Häufigkeit auf der y-Achse (und der Mittelwert) in IpM (Instanzen pro Million Wörter) angegeben ist. Für die meisten Wörter liegen diese Werte in einem Bereich ohne Nachkommanullen und sind daher einfacher zu erfassen als Prozentangaben.

 

Typ C - Säulendiagramm mit Wahrscheinlichkeitsverteilung

Dieser Grafiktyp ist ein Säulendiagramm wie Typ A und B, stellt aber nicht die relative Gebrauchshäufigkeit, sondern die Wahrscheinlichkeitsverteilung des sprachlichen Ausdrucks über die jahresbezogenen Teilkorpora dar. Die Wahrscheinlichkeitsverteilung hat den Vorteil, dass ihre Werte immer auf der gleichen y-Skala dargestellt werden können. Somit ermöglicht dieser Grafiktyp, im Gegensatz zu einer Darstellung von relativen Häufigkeiten wie in den Typen A und B, einen unmittelbaren visuellen Vergleich von Zeitverläufen zweier verschiedener Wörter bzw. sprachlicher Ausdrücke.

 

Typ D - Graf mit Differenzenkoeffizienten

Der Differenzenkoeffizient zeigt die Abweichung der Vorkommenshäufigkeit eines Wortes von einem erwarteten Wert an. Seine Werte liegen zwischen -1 und 1. Ist sein Wert für ein Teilkorpus positiv, so zeigt dies eine Vorkommenshäufigkeit an, die höher als der erwartete Wert liegt, und ist sein Wert negativ, so zeigt dies eine Häufigkeit an, die niedriger liegt als der erwartete Wert. Da der Differenzenkoeffizient nicht einen Anteil von Vorkommen eines Ausdrucks an einer Gesamtheit ausdrückt, ist sein Verlauf nicht für eine Darstellung als Säulendiagramm geeignet, sondern wird als Graf visualisiert. Die Zeitverläufe der Differenzenkoeffizienten zweier verschiedener Ausdrücke können ebenfalls unmittelbar miteinander verglichen werden.

 

Typ E - Graf mit Differenzenkoeffizienten mit Markierung der relativen Häufigkeit in Prozent

Dieser Grafiktyp ist identisch mit dem Typ D, mit dem Unterschied, dass zusätzlich die relativen Häufigkeiten in den einzelnen Teilkorpora in Prozent auf einer zweiten y-Achse rechts aufgetragen sind. Darauf entsprechen die Abstände zwischen den einzelnen Werten naturgemäß nicht ihrer Differenz, und die dargestellten Wertebereiche unterscheiden sich für verschiedene Suchausdrücke.

 

Typ F - Graf mit Differenzenkoeffizienten mit Markierung der relativen Häufigkeit in IpM

Dieser Grafiktyp ist identisch mit dem Typ E, mit dem Unterschied, dass die relativen Häufigkeiten auf der rechten y-Achse in IpM angegeben sind.

 

4.2 Typen nach Präsentationskontext

Thumbnails

Für jeden der unter 4.1 dargestellten Grafiktypen legt die ZVG-Infrastruktur eine Mini-Version (Thumbnail) in geringer Auflösung für die Darstellung in Übersichtstabellen und Ähnlichem an.

 

"Geistergrafik"

Für jeden der unter 4.1 dargestellten Grafiktypen legt die ZVG-Infrastruktur eine ausgegraute, ausgeblasste Version ("Geistergrafik") an. Diese kann präsentiert werden, wenn davon ausgegangen wird, dass das untersuchte sprachliche Phänomen durch den COSMAS-II-Skript-Suchausdruck nicht vollständig genug oder nicht genau genug erfasst wurde. Beispiel: Grafiken für den Suchausdruck "Kohl" werden nicht den Zeitverlauf des Lexems Kohl (Gemüse) anzeigen, da der Suchausdruck in den Zeitungskorpora hauptsächlich Vorkommen von Kohl als Familienname erfassen wird.

 

Beschriftungsarmes s/w Säulendiagramm

Grafiken dieses Typs sind schwarz-weiß, weisen eine Skalenbeschriftung sowie die Angabe der Häufigkeitsklasse auf und beginnen im Jahr 2001. Dieser Grafiktyp wird nur als Variante des Typs B generiert, als Optimierung für die Buchpublikation Steffens / al-Wadi (2013).

 

5 Verfügbare Zeitverlaufsgrafiken

Bisher wurden ZVGs für die Lemmastrecken der 907 Neologismen 1990-2000 und 580 Neologismen 2001-2010 des Projekts href="lexik/lexikalischeinnovationen.html" >Lexikalische Innovationen generiert. Die jeweiligen Suchanfragen wurden in Kooperation unserer Projekte erstellt. Die ZVGs werden im gelegentlich neu generiert, wenn es Korrekturen, Updates oder Erweiterungen gibt oder wenn das MDCA-Korpus um die Daten aus einem neuen DeReKo/COSMAS-Release erweitert wurde.

Die Überblicksansicht ist eine Tabelle mit Links zu allen verfügbaren Grafiktypen eines Wortes bzw. Suchausdrucks. Die Kontrollansicht ermöglicht es der Lexikografin, die generierten ZVGs schnell und effizient zu sichten und auf Plausibiltät zu überprüfen. Um dies zu unterstützen, wird die ursprüngliche Suchanfrage auf der Kontrollseite mit eingeblendet.

An dieser Stelle möchten wir den Mitarbeiterinnen des Projekts Lexikalische Innovationen, Dr. Doris Steffens, Doris al-Wadi und ihren Hilfskräften Celina Friemel, Sandra Zimmermann und Santana Overath für ihre Wortlisten und natürlich für die langjährige hervorragende Kooperation unseren Dank aussprechen.

5.1 Zeitverlaufsgrafiken für Neologismen der 1990er Jahre

5.2 Zeitverlaufsgrafiken für Neologismen der 2000er Jahre

6 Planungen

Geplant ist eine Kooperation mit dem Projekt  href="index.php?id=3577">Beobachtung des Schreibgebrauchs mit computerlinguistischen Methoden über die Zeitverläufe von Schreibvarianten.

7 Projektteam

Projektleitung Cyril Belica
Mitarbeiter Holger Keibel (bis 2010)
Harald Lüngen (seit 2011)
Rainer Perkuhn
Studentische Hilfskräfte Sophie Hennig (bis 2011)

Die ZVG-Infrastruktur wurde von Holger Keibel implementiert und wird von Harald Lüngen gepflegt und erweitert.

8 Links

9 Publikationen

9.1 Projektveröffentlichungen

9.2 Abschlussarbeiten

In folgenden Abschlussarbeiten wurden mit Beratung unseres Projekts Teile des ZVG-Materials ausgewertet.

  • Oliver Gondring (2010): Emergente Syntagmatik. Diachrone Analyse der Kollokationsprofile von Neologismen. Magisterarbeit im Fach Germanistik, Universität Potsdam. Betreuer: Christoph Schroeder und Heike Wiese.
  • Sophie Hennig (2011): Korpusbasierte Prognose von Zeitverläufen bei Neologismen. Wissenschaftliche Arbeit im Rahmen der wissenschaftlichen Prüfung für das Lehramt an Gymnasien, Universität Heidelberg. Betreuer: Ekkehard Felder.
  • Maria Mioduszewski (2011): Neologismen: Entwicklungstendenzen der deutschen Gegenwartssprache anhand von Untersuchungen digitaler Textkorpora. Magisterarbeit im Fach Germanistik, Universität Heidelberg. Gutachter: Jochen A. Bär, Stefan Engelberg.
  • Phil Stephan (2011): Kookkurrenzverhalten im zeitlichen Wandel - Korpuslinguistische Untersuchungen anhand ausgewählter Beispiele. Masterarbeit im Fach Sprache und Kommunikation, Universität Mannheim. Gutachter: Ludwig M. Eichinger und Rainer Perkuhn.

9.3 Weiterführende Literatur

Zurück zur Projektseite

Methoden der Korpusanalyse und -erschließung

Letzte Änderung Harald Lüngen <luengen@ids-...>  

2013-12-10