Methods of Corpus Analysis and Indexing: Multidimensional Corpus Analyses

Programme Infrastructure for the Generation of Time Course Graphs

On these pages we present concepts, functionalities and results of our Programme Infrastructure for the Generation of Time Course Graphs (ZVGs) from the German Reference Corpus DeReKo. The dimension of time is a focus of the subproject Multidimensional Corpus Analyses in the project Methods of Corpus Analysis and Corpus Classification in the Corpus Linguistics Project.

The focus on time resulted, among other things, from the long-standing cooperation with the project Lexikalische Innovationen of the Section Lexis. Within the framework of this cooperation, ZVGs for German neologisms were generated for online and book publication of two neologism dictionaries. From our perspective neologisms are a suitable field of application for our MDCA and ZVG models. A further planned field of application concerns the temporal development of spelling variants.

Within the framework of this cooperation, ZVGs for neologisms of German were generated for online and for book publication of two neologism dictionaries. From our perspective, neologisms are thus a suitable field of application for our MDCA or ZVG models. Another planned area of application concerns the temporal development of spelling variants.

1 Theoretical Background

The basis is the mathematical frequency measures in corpus linguistics.

2 MDCA-Korpus

The ZVG infrastructure operates on a predefined or user-defined virtual corpus available in COSMAS II (see figure). What kind of corpus is suitable for observing the temporal development of language phenomena depends on the context of use and the research question.  For the presentation of the development of neologisms over time, a newspaper corpus was defined with the texts of 30 daily and weekly newspapers from Germany, Austria and Switzerland since 1990. The restriction to newspaper texts was primarily justified by the fact that everyday language was to be studied and that newspapers represent this language to a particular in comparison to specialist texts or poetry, for example. Incidentally, the time of origin of a newspaper text is known to the day in most cases. 
In the ZVG infrastructure, the name of the desired corpus in COSMAS and the access data of a COSMAS user to whom this corpus is available, is to be indicated.

3 ZVG Infrastructure

The ZVG infrastructure is programmed in perl.  It addresses the corpus research system COSMAS-II, the function plotter gnuplot and the R interpreter via interfaces.

The ZVG infrastructure receives as input a list of linguistic phenomena and produces as output for each phenomenon a set of frequency distributions (of all the frequency measures presented in >Keibel (2009)), ZVGs of each type described below, and HTML pages for their described below, and HTML pages for their presentation.

The "linguistic phenomena" must be coded as COSMAS-II script search expressions. Linguistic phenomena are in the simplest case single word forms, but can also be lemmas, lexemes, multi-word units, phraseologisms or longer strings of characters, in the sense that they can be formulated as COSMAS II search expressions.

Formulating suitable search queries is a demanding task, which requires the necessary linguistic expertise and a command of the search query language. In the article Lüngen/Keibel (2013) the requirements are described in more detail on the basis of examples.

In addition to the frequency distributions and global frequency classes for each request, the infrastructure creates statistics on the MDCA corpus, the annual subcorporations and the occurrences of the reference word de- (certain article, for calculating the frequency class).

4 Types of time-lapse graphs

4.1 Types by frequency

Typ A - Säulendiagramm mit relativer Häufigkeit in Prozent und Mittelwert

Dieser Grafiktyp präsentiert den Zeitverlauf als klassisches Säulendiagramm. Auf der y-Achse ist die relative Gebrauchshäufigkeit in Prozent aufgetragen, auf die x-Achse die gewählten Zeiteinheiten, in diesem Fall Jahre, so dass jeder Balken die relative Haufigkeit des Vorkommens des sprachlichen Phänomens (hier das Lexem mailen) im jahresbezogenen Teilkorpus anzeigt. Zur weiteren Orientierung wird der Mittelwert der relativen Häufigkeiten als Gleitkommazahl in einem separaten kleinen Rahmen angezeigt sowie als rote Linie quer hinter den Balken markiert, so dass auch die Abweichungen vom Durchschnitt visuell gut erfasst werden können. Auf der y-Achse sieht man, dass die Angabe der relativen Häufigkeit in Prozent zu sehr kleinen Werten führt, die aus Platz- und Lesbarkeitsgründen teilweise in Exponenzialschreibweise angegeben werden.

Die relativen Häufigkeiten verschiedener Wörter befinden sich in der Regel in unterschiedlichen Wertebereichen, d.h. die y-Achse stellt einen unterschiedlichen Zahlenbereich dar, der jeweils von 0 bis zu einem ymax reicht; im rechts gezeigten Beispiel ist ymax=0,0007 %. Das hat zur Folge, dass die Darstellungen der Zeitverläufe zweier verschiedener Wörter mit relativen Häufigkeiten nicht unmittelbar miteinander vergleichbar sind.

 

Typ B - Säulendiagramm mit relativer Häufigkeit in IpM und Mittelwert

Dieser Grafiktyp ist identisch mit dem Grafiktyp A, mit der Ausnahme, dass die relative Häufigkeit auf der y-Achse (und der Mittelwert) in IpM (Instanzen pro Million Wörter) angegeben ist. Für die meisten Wörter liegen diese Werte in einem Bereich ohne Nachkommanullen und sind daher einfacher zu erfassen als Prozentangaben.

 

Typ C - Säulendiagramm mit Wahrscheinlichkeitsverteilung

Dieser Grafiktyp ist ein Säulendiagramm wie Typ A und B, stellt aber nicht die relative Gebrauchshäufigkeit, sondern die Wahrscheinlichkeitsverteilung des sprachlichen Ausdrucks über die jahresbezogenen Teilkorpora dar. Die Wahrscheinlichkeitsverteilung hat den Vorteil, dass ihre Werte immer auf der gleichen y-Skala dargestellt werden können. Somit ermöglicht dieser Grafiktyp, im Gegensatz zu einer Darstellung von relativen Häufigkeiten wie in den Typen A und B, einen unmittelbaren visuellen Vergleich von Zeitverläufen zweier verschiedener Wörter bzw. sprachlicher Ausdrücke.

 

Typ D - Graf mit Differenzenkoeffizienten

Der Differenzenkoeffizient zeigt die Abweichung der Vorkommenshäufigkeit eines Wortes von einem erwarteten Wert an. Seine Werte liegen zwischen -1 und 1. Ist sein Wert für ein Teilkorpus positiv, so zeigt dies eine Vorkommenshäufigkeit an, die höher als der erwartete Wert liegt, und ist sein Wert negativ, so zeigt dies eine Häufigkeit an, die niedriger liegt als der erwartete Wert. Da der Differenzenkoeffizient nicht einen Anteil von Vorkommen eines Ausdrucks an einer Gesamtheit ausdrückt, ist sein Verlauf nicht für eine Darstellung als Säulendiagramm geeignet, sondern wird als Graf visualisiert. Die Zeitverläufe der Differenzenkoeffizienten zweier verschiedener Ausdrücke können ebenfalls unmittelbar miteinander verglichen werden.

 

Typ E - Graf mit Differenzenkoeffizienten mit Markierung der relativen Häufigkeit in Prozent

Dieser Grafiktyp ist identisch mit dem Typ D, mit dem Unterschied, dass zusätzlich die relativen Häufigkeiten in den einzelnen Teilkorpora in Prozent auf einer zweiten y-Achse rechts aufgetragen sind. Darauf entsprechen die Abstände zwischen den einzelnen Werten naturgemäß nicht ihrer Differenz, und die dargestellten Wertebereiche unterscheiden sich für verschiedene Suchausdrücke.

 

Typ F - Graf mit Differenzenkoeffizienten mit Markierung der relativen Häufigkeit in IpM

Dieser Grafiktyp ist identisch mit dem Typ E, mit dem Unterschied, dass die relativen Häufigkeiten auf der rechten y-Achse in IpM angegeben sind.

 

4.2 Types by presentation context

Thumbnails

Für jeden der unter 4.1 dargestellten Grafiktypen legt die ZVG-Infrastruktur eine Mini-Version (Thumbnail) in geringer Auflösung für die Darstellung in Übersichtstabellen und Ähnlichem an.

 

"Geistergrafik"

Für jeden der unter 4.1 dargestellten Grafiktypen legt die ZVG-Infrastruktur eine ausgegraute, ausgeblasste Version ("Geistergrafik") an. Diese kann präsentiert werden, wenn davon ausgegangen wird, dass das untersuchte sprachliche Phänomen durch den COSMAS-II-Skript-Suchausdruck nicht vollständig genug oder nicht genau genug erfasst wurde. Beispiel: Grafiken für den Suchausdruck "Kohl" werden nicht den Zeitverlauf des Lexems Kohl (Gemüse) anzeigen, da der Suchausdruck in den Zeitungskorpora hauptsächlich Vorkommen von Kohl als Familienname erfassen wird.

 

Beschriftungsarmes s/w Säulendiagramm

Grafiken dieses Typs sind schwarz-weiß, weisen eine Skalenbeschriftung sowie die Angabe der Häufigkeitsklasse auf und beginnen im Jahr 2001. Dieser Grafiktyp wird nur als Variante des Typs B generiert, als Optimierung für die Buchpublikation Steffens / al-Wadi (2013).

 

5 Available time-lapse graphs

So far ZVGs have been generated for the lemma stretches of the 907 neologisms 1990-2000 and 580 neologisms 2001-2010 of the project Lexikalische Innovationen. The respective search queries were created in cooperation with our projects. The ZVGs are occasionally re-generated when there are corrections, updates or enhancements, or when the MDCA corpus has been extended with the data from a new DeReKo/COSMAS release.

The overview view is a table with links to all available graphic types of a word or search term. The control view enables the lexicographer to quickly and efficiently sift through the generated ZVGs and to check for plausibility. To support this, the original search query is displayed on the control page.

At this point, we would like to thank Dr. Doris Steffens, Doris al-Wadi and their assistants Celina Friemel, Sandra Zimmermann and Santana Overath for their word lists and, of course, for their excellent cooperation over many years.

5.1 Time lapse graphs for neologisms of the 1990s

5.2 Time lapse graphs for neologisms of the 2000s

6 Planning

A cooperation with the project Beobachtung des Schreibgebrauchs mit computerlinguistischen Methoden is planned.

7 Project team

Project management Cyril Belica
Project members Holger Keibel (bis 2010)
Harald Lüngen (seit 2011)
Rainer Perkuhn
Student assistant Sophie Hennig (bis 2011)

The ZVG infrastructure was implemented by Holger Keibel and is maintained and expanded by Harald Lüngen.

8 Links

9 Publications

9.1 Project publications

9.2 Final work

Parts of the ZVG material were evaluated in the following final theses with advice from our project.

  • Oliver Gondring (2010): Emergente Syntagmatik. Diachrone Analyse der Kollokationsprofile von Neologismen. Magisterarbeit im Fach Germanistik, Universität Potsdam. Betreuer: Christoph Schroeder und Heike Wiese.
  • Sophie Hennig (2011): Korpusbasierte Prognose von Zeitverläufen bei Neologismen. Wissenschaftliche Arbeit im Rahmen der wissenschaftlichen Prüfung für das Lehramt an Gymnasien, Universität Heidelberg. Betreuer: Ekkehard Felder.
  • Maria Mioduszewski (2011): Neologismen: Entwicklungstendenzen der deutschen Gegenwartssprache anhand von Untersuchungen digitaler Textkorpora. Magisterarbeit im Fach Germanistik, Universität Heidelberg. Gutachter: Jochen A. Bär, Stefan Engelberg.
  • Phil Stephan (2011): Kookkurrenzverhalten im zeitlichen Wandel - Korpuslinguistische Untersuchungen anhand ausgewählter Beispiele. Masterarbeit im Fach Sprache und Kommunikation, Universität Mannheim. Gutachter: Ludwig M. Eichinger und Rainer Perkuhn.

9.3 Further literature

 

Last modification  Harald Lüngen <luengen@ids-...>  

2013-12-10