Methods of Corpus Analysis and Indexing: Multidimensional Corpus Analyses
Programme Infrastructure for the Generation of Time Course Graphs
On these pages we present concepts, functionalities and results of our Programme Infrastructure for the Generation of Time Course Graphs (ZVGs) from the German Reference Corpus DeReKo. The dimension of time is a focus of the subproject Multidimensional Corpus Analyses in the project Methods of Corpus Analysis and Corpus Classification in the Corpus Linguistics Project.
The focus on time resulted, among other things, from the long-standing cooperation with the project Lexikalische Innovationen of the Section Lexis. Within the framework of this cooperation, ZVGs for German neologisms were generated for online and book publication of two neologism dictionaries. From our perspective neologisms are a suitable field of application for our MDCA and ZVG models. A further planned field of application concerns the temporal development of spelling variants.
Within the framework of this cooperation, ZVGs for neologisms of German were generated for online and for book publication of two neologism dictionaries. From our perspective, neologisms are thus a suitable field of application for our MDCA or ZVG models. Another planned area of application concerns the temporal development of spelling variants.
1 Theoretical Background
The basis is the mathematical frequency measures in corpus linguistics.
2 MDCA-Korpus
The ZVG infrastructure operates on a predefined or user-defined virtual corpus available in COSMAS II (see figure). What kind of corpus is suitable for observing the temporal development of language phenomena depends on the context of use and the research question. For the presentation of the development of neologisms over time, a newspaper corpus was defined with the texts of 30 daily and weekly newspapers from Germany, Austria and Switzerland since 1990. The restriction to newspaper texts was primarily justified by the fact that everyday language was to be studied and that newspapers represent this language to a particular in comparison to specialist texts or poetry, for example. Incidentally, the time of origin of a newspaper text is known to the day in most cases.
In the ZVG infrastructure, the name of the desired corpus in COSMAS and the access data of a COSMAS user to whom this corpus is available, is to be indicated.
3 ZVG Infrastructure
The ZVG infrastructure is programmed in perl. It addresses the corpus research system COSMAS-II, the function plotter gnuplot and the R interpreter via interfaces.

The ZVG infrastructure receives as input a list of linguistic phenomena and produces as output for each phenomenon a set of frequency distributions (of all the frequency measures presented in >Keibel (2009)), ZVGs of each type described below, and HTML pages for their described below, and HTML pages for their presentation.
The "linguistic phenomena" must be coded as COSMAS-II script search expressions. Linguistic phenomena are in the simplest case single word forms, but can also be lemmas, lexemes, multi-word units, phraseologisms or longer strings of characters, in the sense that they can be formulated as COSMAS II search expressions.
Formulating suitable search queries is a demanding task, which requires the necessary linguistic expertise and a command of the search query language. In the article Lüngen/Keibel (2013) the requirements are described in more detail on the basis of examples.
In addition to the frequency distributions and global frequency classes for each request, the infrastructure creates statistics on the MDCA corpus, the annual subcorporations and the occurrences of the reference word de- (certain article, for calculating the frequency class).
4 Types of time-lapse graphs
4.1 Types by frequency
Typ A - Säulendiagramm mit relativer Häufigkeit in Prozent und Mittelwert | |
---|---|
Dieser Grafiktyp präsentiert den Zeitverlauf als klassisches Säulendiagramm. Auf der y-Achse ist die relative Gebrauchshäufigkeit in Prozent aufgetragen, auf die x-Achse die gewählten Zeiteinheiten, in diesem Fall Jahre, so dass jeder Balken die relative Haufigkeit des Vorkommens des sprachlichen Phänomens (hier das Lexem mailen) im jahresbezogenen Teilkorpus anzeigt. Zur weiteren Orientierung wird der Mittelwert der relativen Häufigkeiten als Gleitkommazahl in einem separaten kleinen Rahmen angezeigt sowie als rote Linie quer hinter den Balken markiert, so dass auch die Abweichungen vom Durchschnitt visuell gut erfasst werden können. Auf der y-Achse sieht man, dass die Angabe der relativen Häufigkeit in Prozent zu sehr kleinen Werten führt, die aus Platz- und Lesbarkeitsgründen teilweise in Exponenzialschreibweise angegeben werden. Die relativen Häufigkeiten verschiedener Wörter befinden sich in der Regel in unterschiedlichen Wertebereichen, d.h. die y-Achse stellt einen unterschiedlichen Zahlenbereich dar, der jeweils von 0 bis zu einem ymax reicht; im rechts gezeigten Beispiel ist ymax=0,0007 %. Das hat zur Folge, dass die Darstellungen der Zeitverläufe zweier verschiedener Wörter mit relativen Häufigkeiten nicht unmittelbar miteinander vergleichbar sind. |
|
Typ B - Säulendiagramm mit relativer Häufigkeit in IpM und Mittelwert | |
---|---|
Dieser Grafiktyp ist identisch mit dem Grafiktyp A, mit der Ausnahme, dass die relative Häufigkeit auf der y-Achse (und der Mittelwert) in IpM (Instanzen pro Million Wörter) angegeben ist. Für die meisten Wörter liegen diese Werte in einem Bereich ohne Nachkommanullen und sind daher einfacher zu erfassen als Prozentangaben. |
|
Typ C - Säulendiagramm mit Wahrscheinlichkeitsverteilung | |
---|---|
Dieser Grafiktyp ist ein Säulendiagramm wie Typ A und B, stellt aber nicht die relative Gebrauchshäufigkeit, sondern die Wahrscheinlichkeitsverteilung des sprachlichen Ausdrucks über die jahresbezogenen Teilkorpora dar. Die Wahrscheinlichkeitsverteilung hat den Vorteil, dass ihre Werte immer auf der gleichen y-Skala dargestellt werden können. Somit ermöglicht dieser Grafiktyp, im Gegensatz zu einer Darstellung von relativen Häufigkeiten wie in den Typen A und B, einen unmittelbaren visuellen Vergleich von Zeitverläufen zweier verschiedener Wörter bzw. sprachlicher Ausdrücke. |
|
Typ D - Graf mit Differenzenkoeffizienten | |
---|---|
Der Differenzenkoeffizient zeigt die Abweichung der Vorkommenshäufigkeit eines Wortes von einem erwarteten Wert an. Seine Werte liegen zwischen -1 und 1. Ist sein Wert für ein Teilkorpus positiv, so zeigt dies eine Vorkommenshäufigkeit an, die höher als der erwartete Wert liegt, und ist sein Wert negativ, so zeigt dies eine Häufigkeit an, die niedriger liegt als der erwartete Wert. Da der Differenzenkoeffizient nicht einen Anteil von Vorkommen eines Ausdrucks an einer Gesamtheit ausdrückt, ist sein Verlauf nicht für eine Darstellung als Säulendiagramm geeignet, sondern wird als Graf visualisiert. Die Zeitverläufe der Differenzenkoeffizienten zweier verschiedener Ausdrücke können ebenfalls unmittelbar miteinander verglichen werden. |
|
Typ E - Graf mit Differenzenkoeffizienten mit Markierung der relativen Häufigkeit in Prozent | |
---|---|
Dieser Grafiktyp ist identisch mit dem Typ D, mit dem Unterschied, dass zusätzlich die relativen Häufigkeiten in den einzelnen Teilkorpora in Prozent auf einer zweiten y-Achse rechts aufgetragen sind. Darauf entsprechen die Abstände zwischen den einzelnen Werten naturgemäß nicht ihrer Differenz, und die dargestellten Wertebereiche unterscheiden sich für verschiedene Suchausdrücke. |
|
Typ F - Graf mit Differenzenkoeffizienten mit Markierung der relativen Häufigkeit in IpM | |
---|---|
Dieser Grafiktyp ist identisch mit dem Typ E, mit dem Unterschied, dass die relativen Häufigkeiten auf der rechten y-Achse in IpM angegeben sind. |
|
4.2 Types by presentation context
Thumbnails | |
---|---|
Für jeden der unter 4.1 dargestellten Grafiktypen legt die ZVG-Infrastruktur eine Mini-Version (Thumbnail) in geringer Auflösung für die Darstellung in Übersichtstabellen und Ähnlichem an. |
|
"Geistergrafik" | |
---|---|
Für jeden der unter 4.1 dargestellten Grafiktypen legt die ZVG-Infrastruktur eine ausgegraute, ausgeblasste Version ("Geistergrafik") an. Diese kann präsentiert werden, wenn davon ausgegangen wird, dass das untersuchte sprachliche Phänomen durch den COSMAS-II-Skript-Suchausdruck nicht vollständig genug oder nicht genau genug erfasst wurde. Beispiel: Grafiken für den Suchausdruck "Kohl" werden nicht den Zeitverlauf des Lexems Kohl (Gemüse) anzeigen, da der Suchausdruck in den Zeitungskorpora hauptsächlich Vorkommen von Kohl als Familienname erfassen wird. |
|
Beschriftungsarmes s/w Säulendiagramm | |
---|---|
Grafiken dieses Typs sind schwarz-weiß, weisen eine Skalenbeschriftung sowie die Angabe der Häufigkeitsklasse auf und beginnen im Jahr 2001. Dieser Grafiktyp wird nur als Variante des Typs B generiert, als Optimierung für die Buchpublikation Steffens / al-Wadi (2013). |
|
5 Available time-lapse graphs
So far ZVGs have been generated for the lemma stretches of the 907 neologisms 1990-2000 and 580 neologisms 2001-2010 of the project Lexikalische Innovationen. The respective search queries were created in cooperation with our projects. The ZVGs are occasionally re-generated when there are corrections, updates or enhancements, or when the MDCA corpus has been extended with the data from a new DeReKo/COSMAS release.
The overview view is a table with links to all available graphic types of a word or search term. The control view enables the lexicographer to quickly and efficiently sift through the generated ZVGs and to check for plausibility. To support this, the original search query is displayed on the control page.
At this point, we would like to thank Dr. Doris Steffens, Doris al-Wadi and their assistants Celina Friemel, Sandra Zimmermann and Santana Overath for their word lists and, of course, for their excellent cooperation over many years.
5.1 Time lapse graphs for neologisms of the 1990s
- Überblick
- IpM-Kontrollansicht zum Durchklicken für Lexikografen
5.2 Time lapse graphs for neologisms of the 2000s
- Überblick
- IpM-Kontrollansicht zum Durchklicken für Lexikografen
6 Planning
A cooperation with the project Beobachtung des Schreibgebrauchs mit computerlinguistischen Methoden is planned.
7 Project team
Project management | Cyril Belica |
Project members | Holger Keibel (bis 2010) Harald Lüngen (seit 2011) Rainer Perkuhn |
Student assistant | Sophie Hennig (bis 2011) |
The ZVG infrastructure was implemented by Holger Keibel and is maintained and expanded by Harald Lüngen.
8 Links
- Abteilung Lexik: OWID: Neologismenwörterbuch
- Abteilung Lexik: Projekt Lexikalische Innovationen
9 Publications
9.1 Project publications
- Holger Keibel (2009): Mathematische Häufigkeitsmaße in der Korpuslinguistik: Eigenschaften und Verwendung. (Erw. und überarb. 2. Aufl.). Mannheim: Institut für Deutsche Sprache.
- Harald Lüngen / Holger Keibel (2013): Zu Erstellung und Interpretation der Zeitverlaufsgrafiken. In: Doris Steffens / Doris al-Wadi: Neuer Wortschatz. Neologismen im Deutschen 2001-2010. 2 Bände, LVII/577 S. - Mannheim: Institut für Deutsche Sprache, 2013. S. 261-268
9.2 Final work
Parts of the ZVG material were evaluated in the following final theses with advice from our project.
- Oliver Gondring (2010): Emergente Syntagmatik. Diachrone Analyse der Kollokationsprofile von Neologismen. Magisterarbeit im Fach Germanistik, Universität Potsdam. Betreuer: Christoph Schroeder und Heike Wiese.
- Sophie Hennig (2011): Korpusbasierte Prognose von Zeitverläufen bei Neologismen. Wissenschaftliche Arbeit im Rahmen der wissenschaftlichen Prüfung für das Lehramt an Gymnasien, Universität Heidelberg. Betreuer: Ekkehard Felder.
- Maria Mioduszewski (2011): Neologismen: Entwicklungstendenzen der deutschen Gegenwartssprache anhand von Untersuchungen digitaler Textkorpora. Magisterarbeit im Fach Germanistik, Universität Heidelberg. Gutachter: Jochen A. Bär, Stefan Engelberg.
- Phil Stephan (2011): Kookkurrenzverhalten im zeitlichen Wandel - Korpuslinguistische Untersuchungen anhand ausgewählter Beispiele. Masterarbeit im Fach Sprache und Kommunikation, Universität Mannheim. Gutachter: Ludwig M. Eichinger und Rainer Perkuhn.
9.3 Further literature
- Cyril Belica (1999): Von absoluten Häufigkeiten zum Differenzenkoeffizienten. Auszug aus der Machbarkeitsstudie Korpusbasierte diachronische Analyse der Gebrauchshäufigkeit: Wörter des Jahrzehnts, IDS Mannheim.
- Institut für Deutsche Sprache (2011): Neologismenwörterbuch der 1990er Jahre in OWID (Online-Wortschatz-Informationssystem Deutsch).
- Holger Keibel / Sophie Hennig / Rainer Perkuhn (2010): Effiziente halbautomatische Detektion von Neologismuskandidaten. (Technical Report IDS-KL-2010-01). Mannheim: Institut für Deutsche Sprache.
- Rainer Perkuhn/ Holger Keibel / Marc Kupietz (2012): Korpuslinguistik. Paderborn: Fink. (UTB-Reihe LIBAC – Linguistik für Bachelor, Band 3433.)
- Doris Steffens / Doris al-Wadi: Neuer Wortschatz. Neologismen im Deutschen 2001-2010. 2 Bände, LVII/577 S. - Mannheim: Institut für Deutsche Sprache, 2013.
Last modification Harald Lüngen <luengen@ids-...>
2013-12-10