Mathematische Häufigkeitsmaße in der Korpuslinguistik
Eigenschaften und Verwendung
Holger Keibel, Programmbereich Korpuslinguistik, IDS Mannheim

Einleitung
In der Korpuslinguistik und der Quantitativen Linguistik werden ganz verschiedenartige formale Maße verwendet, mit denen die Gebrauchshäufigkeit eines Wortes, eines Ausdrucks oder auch abstrakter oder komplexer sprachlicher Elemente in einem gegebenen Korpus gemessen und ggf. mit anderen Gebrauchshäufigkeiten verglichen [1]  werden kann. Im Folgenden soll für eine Auswahl dieser Maße (absolute Häufigkeit, relative Häufigkeit, Wahrscheinlichkeitsverteilung, Differenzenkoeffizient, Häufigkeitsklasse) zusammengefasst werden, wie sie definiert sind, welche Eigenschaften sie haben und unter welchen Bedingungen sie (sinnvoll) anwendbar und interpretierbar sind – dabei kann eine Rolle spielen, ob das Häufigkeitsmaß auf ein Korpus als Ganzes angewendet wird oder auf einzelne Teilkorpora. Zusätzlich zu den bei den einzelnen Häufigkeitsmaßen genannten Einschränkungen gilt generell der folgende vereinfachte Zusammenhang: Je seltener ein Wort im gegebenen Korpus insgesamt vorkommt und je kleiner dieses Korpus ist, desto stärker hängt die beobachtete Gebrauchshäufigkeit des Wortes von zufälligen Faktoren ab, d.h., desto geringer ist die statistische Zuverlässigkeit der Beobachtung. [2]
Zu jedem Häufigkeitsmaß wird zunächst nur eine schnell zugängliche informelle Beschreibung angezeigt. Optional kann dann durch Klicken auf die Schaltfläche „mehr“ eine ausführlichere formale Beschreibung eingeblendet werden.

Ausgangssituation
Bei der Beschreibung der Maße wird die folgende Ausgangssituation vorausgesetzt: Es wurde ein festes Textkorpus ausgewählt und (z.B. mithilfe einer geeigneten Korpusrecherche-Software) eine Suchanfrage an dieses Korpus gestellt. Zudem wird an einigen Stellen davon ausgegangen, dass das gegebene Korpus in einzelne Teilkorpora zerlegt wurde, so dass jeder Korpustext in genau einem Teilkorpus liegt. Eine solche Zerlegung lässt sich definieren z.B. nach einem zeitlichen Kriterium wie Entstehungsjahr [3]  oder nach einem Kriterium wie Textquelle [4]  usw.).
Zu einigen Häufigkeitsmaßen werden konkrete Beispielanalysen genannt – diesen Beispielen liegt ein virtuelles Korpus zugrunde, das alle bundesdeutschen Zeitungskorpora im Deutschen Referenzkorpus (DeReKo) von 1990 bis Mitte 2008 enthält. Im Folgenden wird dieses virtuelle Korpus kurz als MDCA-Korpus bezeichnet, es umfasst insgesamt ca. 2,04 Milliarden laufende Textwörter.

Art der Suchanfrage
Die Verwendung einiger Häufigkeitsmaße hängt von der Art der Suchanfrage ab – wo dies der Fall ist, wird dies explizit dazu gesagt, in allen anderen Fällen wird der Einfachheit halber davon ausgegangen, dass die Suchanfrage nach einem einzelnen Wort sucht (ggf. nach allen flektierten Formen und anderen orthografischen Varianten dieses Wortes). Hierfür müssen die folgenden zwei Suchanfrage-Typen unterschieden werden:


Häufigkeitsmaße

Absolute Häufigkeit
Absolute Häufigkeiten sind das elemantare Häufigkeitsmaß. Die absolute Gebrauchshäufigkeit eines Wortes in einem Korpus gibt an, wie oft das Wort insgesamt in allen Texten dieses Korpus vorkommt.
 mehr 


Relative Häufigkeit
Die relative Gebrauchshäufigkeit eines Wortes in einem Korpus gibt an, welchen Anteil das Wort an diesem gesamten Korpus ausmacht. Dieser Anteil ist eine Dezimalzahl zwischen 0,0 und 1,0, wird manchmal aber auch in Prozent oder Promille angegeben, vorzugsweise jedoch als Instanzen pro Million Wörter (kurz: pMW oder IpM, im Englischen entsprechend: pmw bzw. ipm). Einige Wörter kommen sehr häufig vor (so macht der bestimmte Artikel mit den Formen der, die, das, des, dem, den insgesamt 9,2% (= 92.000 Instanzen pMW) des MDCA-Korpus aus, d.h., beim Lesen dieses Korpus ist durchschnittlich fast jede zehnte Wortform ein bestimmter Artikel), andere Wörter sind weniger häufig (z.B. liegt die relative Häufigkeit des Wortes hingegen in demselben Korpus bei ca. 74,0 Vorkommen pMW) und wieder andere Wörter kommen nur vergleichsweise selten vor (z.B. Dadaismus: ca. 0,23 pMW).
 mehr 


Wahrscheinlichkeitsverteilung
Hier wird vorausgesetzt, dass das gegebene Korpus in einzelne Teilkorpora zerlegt ist (wie oben skizziert). Die Wahrscheinlichkeitsverteilung eines Wortes ist nicht eine einzelne Zahl, sondern eine Zahlenfolge: Die einzelnen Zahlen geben an, zu welchen Anteilen sich die Vorkommen dieses Wortes im gesamten Korpus auf die einzelnen Teilkorpora verteilen. Diese Werte können auch als (bedingte) Wahrscheinlichkeiten interpretiert werden: Der Wert für ein Teilkorpus gibt an, wie wahrscheinlich es ist, dass eine zufällig aus dem Gesamtkorpus entnommene Instanz des Wortes in diesem Teilkorpus liegt. Die einzelnen Werte sind also Zahlen zwischen 0,0 und 1,0, und ihre Summe ist stets 1,0 (bzw. 100%).
 mehr 


Differenzenkoeffizient
Der Differenzenkoeffizient liegt immer zwischen den Werten -1,0 und +1,0. Wie auch Wahrscheinlichkeitsverteilungen ist er jedoch nur dann sinnvoll zu berechnen, wenn das gegebene Korpus in einzelne Teilkorpora zerlegt ist (wie oben skizziert). In Teilkorpora, in denen der Differenzenkoeffizient eines Wortes positiv ist, ist die Gebrauchshäufigkeit des Wortes überdurchschnittlich hoch. In Teilkorpora mit einem negativen Differenzenkoeffizienten dagegen liegt die Gebrauchshäufigkeit des Wortes unter dem Durchschnitt. Kommt das Wort in einem Teilkorpus gar nicht vor, so hat der Differenzenkoeffizient hier den Wert -1,0.
 mehr 


Häufigkeitsklasse
Mit Häufigkeitsklassen werden alle Wörter des gesamten Vokabular nach ihrer Häufigkeit in Klassen aufgeteilt, wobei Wörter derselben Klasse ungefähr gleich häufig sind. In der Praxis werden hierfür bis zu 30 Häufigkeitsklassen unterschieden, und sie tragen die Nummern 0, 1, 2, 3, usw. Zu beachten ist hierbei: Je niedriger die Nummer der Häufigkeitsklasse, desto häufiger sind die darin befindlichen Wörter. Die häufigsten Wörter befinden sich in Klasse 0 (hier findet man in Korpora der deutschen Schriftsprache i.A. nur den bestimmten Artikel), die zweithäufigste Gruppe von Wörtern in Klasse 1 (diese Klasse ist meistens leer), die dritthäufigste Gruppe von Wörtern in Klasse 2 (in diese Klasse gehören für das o.g. MDCA-Korpus z.B. die Konjunktion und, das Verb sein mit allen seinen Formen, sowie die Präposition in). Von den oben bereits verwendeten Beispielen gehört für das MDCA-Korpus das mittelmäßig häufige Wort hingegen zur Häufigkeitsklasse 10 und das eher seltene Wort Dadaismus zur Häufigkeitsklasse 19.
 mehr 


Seitenanfang

Bitte zitieren Sie diese Seite bei Bedarf wie folgt:
Keibel, Holger (2008, 2009): Mathematische Häufigkeitsmaße in der Korpuslinguistik: Eigenschaften und Verwendung. Mannheim: Institut für Deutsche Sprache.

Fragen und Kommentare bitte an: korpuslinguistik{at}ids-mannheim.de


Zuletzt aktualisiert: 07.05.2010