Datengrundlage
Den Zeitverlaufsgrafiken liegt ein virtuelles Korpus zugrunde, das alle Zeitungskorpora im
Deutschen Referenzkorpus (DeReKo)[1]
seit 1990 umfasst.
Zeitungskorpora sind im vorliegenden Kontext besonders geeignet, u.a. weil sie der Allgemeinsprache zuzurechnen sind und gleichzeitig einen zeitlich kontinuierlichen Datenstrom darstellen. Dieses virtuelle Korpus umfasst derzeit insgesamt ca. 3,42 Milliarden laufende Textwörter, die sich auf die einzelnen Jahrgänge verteilen wie in der folgenden Abbildung dargestellt. Der gewünschte Zeitraum ist durch dieses Korpus lückenlos und für jedes Jahr substanziell abgedeckt, wobei der Korpusumfang zwischen den einzelnen Jahren sichtbar variiert.
Die Korpustexte stammen aus Deutschland (insgesamt 2,45 Milliarden laufende Textwörter; 71,8%), aus Österreich (0,62 Milliarden laufende Textwörter; 18,0%) und aus der Schweiz (0,35 Milliarden laufende Textwörter; 10,2%). Zu beachten ist hierbei, dass die österreichischen Texte nur den Zeitraum von 1991 bis 2000 sowie den Zeitraum von 2007 bis heute abdecken, die Texte aus der Schweiz hingegen nur den Zeitraum von 1996 bis 2001 sowie den Zeitraum von 2005 bis heute. Die bundesdeutschen Texte hingegen decken den gesamten Zeitraum von 1990 bis heute substanziell ab. Bei Wörtern, deren Gebrauchshäufigkeit in den drei Sprachräumen Deutschland, Österreich und Schweiz deutlich unterschiedlich ausgeprägt ist und eine unterschiedliche zeitliche Entwicklung aufweist, kann die lückenhafte Abdeckung durch Texte aus Österreich und der Schweiz dazu führen, dass die zugehörige Zeitverlaufsgrafik große Sprünge aufweist. Dies zeigt sich z.B. bei der Zeitverlaufsgrafik zum Wort Folder, das in den österreichischen Texten deutlich stärker verbreitet ist als etwa in den bundesdeutschen.
[1]Institut für Deutsche Sprache (2011a): Deutsches Referenzkorpus / Archiv der Korpora geschriebener Gegenwartssprache 2011-I, (Release vom 29.03.2011). Mannheim: Institut für Deutsche Sprache.
http://www.ids-mannheim.de/kl/projekte/korpora/archiv.html
Suchanfragen
Die in den Zeitverlaufsgrafiken dargestellte zeitliche Verteilung der Gebrauchshäufigkeit des jeweiligen Wortes ist das Ergebnis einer entsprechenden Suchanfrage via COSMAS II an das o.g. Korpus.
Diese Suchanfrage wurde heuristisch formuliert durch eine explizite Auflistung aller Zeichenketten (ggf. flektierte Wortformen und orthografische Varianten), die dem jeweiligen Neologismus-Stichwort zuzurechnen sind. Sie wurde vollautomatisch durchgeführt, eine manuelle Kontrolle der jeweiligen Treffermenge fand nur anhand kleiner Stichproben statt. Daher ist nicht auszuschließen, dass die Treffermengen für einzelne Wörter systematisch fehlerhafte Treffer enthalten (false positives) oder bestimmte Arten von gewünschten Belegen systematisch nicht enthalten (false negatives). Diese Möglichkeit trägt zusätzlich zu anderen Faktoren dazu bei, dass die resultierenden Zeitverlaufsgrafiken die tatsächliche zeitliche Entwicklung der Gebrauchshäufigkeit des jeweiligen Wortes im gegebenen Korpus nicht immer adäquat wiedergeben.
In dem konkreten Fall der beiden Neulexeme
Ex, die
und
Ex, der
war es kaum möglich, eine Suchanfrage zu formulieren, die gezielt nach den Vorkommen des einen Lexems sucht, ohne gleichzeitig auch einen Großteil der Vorkommen des anderen Lexems zu finden. Aus diesem Grund wurde schließlich eine einzige Suchanfrage verwendet, die nach den Vorkommen beider Neulexeme sucht, so dass die beiden entsprechenden Zeitverlaufsgrafiken identisch sind.
Zwei Arten von Zeitverlaufsgrafiken
Für jedes Neologismus-Stichwort wird der berechnete Zeitverlauf seiner Gebrauchshäufigkeiten in zwei Ansichten angeboten: Während die Standard-Ansicht
(relative Häufigkeit)
intuitiv zugänglicher und daher zum schnellen Erfassen der zeitlichen Entwicklung eines Wortes besser geeignet ist, erlaubt die alternative Ansicht
(Differenzenkoeffizient)
tiefer gehende Interpretationen und insbesondere unmittelbare visuelle Vergleiche zwischen verschiedenen Zeitverläufen.
In dieser zweiten Ansicht ist zusätzlich zum Differenzenkoeffizienten die relative Häufigkeit auf einer zweiten y-Achse aufgetragen, hierdurch können beide Ansichten leichter zueinander in Beziehung gesetzt werden.
Für allgemeine Beschreibungen zu diesen (und weiteren) Häufigkeitsmaßen sei auf Keibel (2008) verwiesen.
Statistische Zuverlässigkeit
Grundsätzlich zu beachten ist der folgende vereinfachte Zusammenhang: Je seltener ein Wort im gegebenen Korpus insgesamt vorkommt, desto stärker hängt der beobachtete zeitliche Verlauf seiner Gebrauchshäufigkeit von zufälligen Faktoren ab, d.h., desto weniger zuverlässig gibt die entsprechende Zeitverlaufsgrafik die tatsächliche zeitliche Entwicklung im Gebrauch dieses Wortes wieder. Aus diesem Grund wird mit jeder Zeitverlaufsgrafik die Gesamthäufigkeit des jeweiligen Wortes im gesamten Korpus (also über alle Jahrgänge) in Form einer Häufigkeitsklasse angegeben, deren Wert umso niedriger ist, je häufiger das Wort insgesamt vorkommt. Für das aktuelle Korpus lässt sich die folgende Faustregel formulieren: Die Zeitverlaufsgrafiken von Wörtern mit einer Häufigkeitsklasse von 22 oder höher sind i.A. zu unzuverlässig, um sinnvoll interpretiert werden zu können.