[IDS-Logo] COSMAS II: Häufigkeitsmaße für die Ergebisauswertung: relative Häufigkeiten

Häufigkeitsmaße: relative Häufigkeiten

1. Definition

Die relative Häufigkeit eines gesuchten Wortes gibt hier an, welchen prozentualen Anteil dieses Wort an der Größe eines Korpusquerschnitts (also der Gesamtheit der laufenden Wortformen in diesem Korpusquerschnitt) einnimmt.

Beispiel:

Anz. Treffer (= absolute H.) Quelle Anz. Wortformen in Quelle rel. Häufig.
38 die tageszeitung 331.454.109 0,000011%

Ab der Serverversion 4.2 (Juni 2012) können die relativen Häufigkeiten auch in pMW = Anzahl Vorkommnisse pro Million Wortformen umgerechnet und angezeigt werden. Diese Werte sind im allgemeinen einfacher zu erfassen1.

Beispiel:

Anz. Treffer (= absolute H.) Quelle Anz. Wortformen in Quelle rel. Häufig.
38 die tageszeitung 331.454.109 0,1 pMW

2. Anwendbarkeit der relativen Häufigkeiten

Die relativen Häufigkeiten lassen sich in COSMAS II für einfache und komplexe Suchanfragetypen anzeigen:

3. Vergleichbarkeit zwischen Suchanfragen

Folgende Beispiele geben Auskunft darüber, welche Suchanfragen sich anhand der Werte ihrer relativen Häufigkeiten vergleichen lassen:

Suchanfrage Referenz
vergleichbar Haus mit Pavillon 1 W./1 W.
Haus mit Haus*
Haus mit &Haus
&Haus mit MORPH(N)
&gehen /w3 baden mit &gehen /w3 schwimmen 2 W./2 W.
nicht
vergleichbar
(&gehen /+w2 "nicht") /+w3 baden mit &gehen /+w5 baden 3 W./2 W.

4. Alternative Berechnungen zu den relativen Häufigkeiten

Ebenfalls denkbar wäre, anstelle der hier verwendeten relativen Häufigkeit zwei andere prozentuale Darstellungen zu verwenden, die leicht mit den in COSMAS II berechneten relativen Häufigkeiten verwechselt werden können. Daher seien die Unterschiede hier kurz erläutert.

Bei der prozentualen Trefferverteilung (PTV) wird der prozentuale Anteil der Treffer eines Korpusquerschnittes an der Gesamtheit der Treffer angegeben:

Beispiel:

Anz. Treffer im Mannheimer Morgen = 38
Gesamtheit der Treffer = 120
prozentualer Anteil der Treffer für den MM = (38/120)*100 = 31.6%

Siehe dazu die Spalte PTV in der nächsten Tabelle. Der direkte Vergleich der PTV-Werte in der Tabelle ist insofern irreführend, als dass in den berechneten Werten die Größe der jeweiligen Korpusquerschnitte nicht berücksichtigt wurden.

Die geschätzte Wahrscheinlichkeitsverteilung (GWV) hingegen berücksichtigt die unterschiedlich großen Korpusquerschnitte, indem sie die relativen Trefferhäufigkeiten in den Querschnitten einbezieht:

Beispiel:

Anz. Treffer im Mannheimer Morgen = 38
rel. Häufigkeit in Bezug auf den Umfang des MMs = (38/1000000)*100 = 0,0038%
Summe der relativen Trefferhäufigkeiten über alle Querschnitte = 0,0067
geschätzte Wahrscheinlichkeit für den MM = 56.7%

Siehe dazu die Spalte GWV in der nächsten Tabelle.

Anz. Treffer
(= absolute H.)
Quelle Umfang der Quelle
in Mio. Wortformen
PTV rel. Häuf. GWV
38 Mannheimer Morgen 1 Mio. 31,6% 0,0038% 56,7%
12 die tageszeitung 2 Mio. 10,0% 0,0006% 9,0%
70 berliner Zeitung 3 Mio. 58,3% 0,0023% 34,3%
120 Total 6 Mio. 100% 0,0067% 100%
Gegenüberstellung von PTV, GWV und rel. Häufigkeiten (bei einer Gesamtheit von 120 Treffern):

5. Relative Häufigkeiten in Wortformlisten

Eine weitere Form von relativen Häufigkeiten wird außerdem in der Suchanfragestatistik für die Einzelwortteilanfragen angezeigt, wenn die Option für die Worthäufigkeiten eingeschaltet ist.


COSMAS II, Zentrale DV-Dienste - 18. 01. 2018