[IDS-Logo] [COSMAS-II-Logo]
Seite drucken Thema drucken Sitemap Suche Impressum Kontakt

Anwendung von Häufigkeitsmaßen in den Ergebnispräsentationen

Probleme bei der Interpretation von Ergebnissen

Lassen Sie Vorsicht walten, wenn Sie die absoluten Angaben über die Trefferzahlen in mehreren Einträgen (= Korpusausschnitten) einer Ergebnispräsentation direkt miteinander vergleichen, da diesen Korpusausschnitten unterschiedlich viele Texte und Textwörter im aktiven Korpus zugrunde liegen, sie somit keine gemeinsame Vergleichsgrundlage bilden.

Beziehen Sie dabei immer auch, im aktiven Korpus, die Verteilung der Anzahl der Textwörter über diese Korpusausschnitte in der gleichnamigen Korpuspräsentation mit ein.

Beispiel

Die Suchanfrage "Tunnel" liefert in der Quellenansicht folgendes Ergebnis:

Ergebnispräsentation nach Quellen
Anzahl Treffer Quelle
119Mannheimer Morgen
618Oberösterreichische Nachrichten

Das Verhältnis zwischen den absoluten Trefferzahlen ist rund 1:5. Um etwas aussagekräftiges über dieses Verhältnis aussagen zu können, müssen Sie die zugehörige Korpusansicht für die gleichen Quellen hinzuziehen:

Korpuspräsentation nach Quellen
Anzahl Textwörter Quelle
15.383.141Mannheimer Morgen
26.819.423Oberösterreichische Nachrichten

Hier stellen Sie fest, dass die Vergleichbasis für die entsprechenden Quellen rund das Verhältnis 1:2 aufweist.

Ergebnis: Während der Mannheimer Morgen etwa halb so viele Treffer aufweist wie zu erwarten wäre (Erwartung: ca. 1/3 der 119+618 Treffer, also ca. 250), weisen die Oberösterreichische Nachrichten überdurchschnittlich viele Treffer (Erwartung: ca 2/3 der 119+618 Treffer, also ca. 490) auf.

Ausweg: Häufigkeitsmaße

Um verschiedene Einträge einer Ergebnispräsentation dennoch direkt untereinander vergleichen zu können, ist die Hinzunahme verschiedener Häufigkeitsmaße sinnvoll. COSMAS II bietet die drei folgenden Maße an, die Sie über die Ergebnispräsentationsoptionen ein- und ausschalten können.

Eine Einführung und mathematische Definitionen hierzu finden Sie in einer Übersicht über korpuslinguistische Häufgkeitsmaße des Programmbereichs Korpuslinguistik.

1. Relative Häufigkeiten

1.1 Definition

Die relative Häufigkeit eines gesuchten Wortes gibt hier an, welchen prozentualen Anteil dieses Wort an der Größe eines Korpusquerschnitts (also der Gesamtheit der laufenden Wortformen in diesem Korpusquerschnitt) einnimmt (siehe hier für eine Formel).

Beispiel:

Anz. Treffer (= absolute H.) Quelle Anz. Wortformen in Quelle rel. Häufig.
38 die tageszeitung 331.454.109 0,000011%

1.2 Anwendbarkeit der relativen Häufigkeiten

Die relativen Häufigkeiten sind in COSMAS II nur mit den folgenden Suchanfragetypen vereinbar:

Beispiele von anwendbaren Suchanfragen: "Haus", "&Haus", "Haus*", "&Haus oder &Gebäude".

1.3 Alternative Berechnungen zu den relativen Häufigkeiten

Ebenfalls denkbar wäre, anstelle der hier verwendeten relativen Häufigkeit zwei andere prozentuale Darstellungen zu verwenden, die leicht mit den in COSMAS II berechneten relativen Häufigkeiten verwechselt werden können. Daher seien die Unterschiede hier kurz erläutert.

Bei der prozentualen Trefferverteilung (PTV) wird der prozentuale Anteil der Treffer eines Korpusquerschnittes an der Gesamtheit der Treffer angegeben:

Beispiel:

Anz. Treffer im Mannheimer Morgen = 38
Gesamtheit der Treffer = 120
prozentualer Anteil der Treffer für den MM = (38/120)*100 = 31.6%

Siehe dazu die Spalte PTV in der nächsten Tabelle. Der direkte Vergleich der PTV-Werte in der Tablle ist insofern irreführend, alls dass in den berechneten Werte die Größe der jeweiligen Korpusquerschnitte nicht berücksichtigt wurden.

Die geschätzte Wahrscheinlichkeitsverteilung (GWV) hingegen berücksichtigt die unterschiedlich großen Korpusquerschnitte, indem sie die relativen Trefferhäufigkeiten in den Querschnitten einbezieht:

Beispiel:

Anz. Treffer im Mannheimer Morgen = 38
rel. Häufigkeit in Bezug auf den Umfang des MMs = (38/1000000)*100 = 0,0038%
Summe der relativen Trefferhäufigkeiten über alle Querschnitte = 0,0067
geschätzte Wahrscheinlichkeit für den MM = 56.7%

Siehe dazu die Spalte GWV in der nächsten Tabelle.

Anz. Treffer
(= absolute H.)
Quelle Umfang der Quelle
in Mio. Wortformen
PTV rel. Häuf. GWV
38 Mannheimer Morgen 1 Mio. 31,6% 0,0038% 56,7%
12 die tageszeitung 2 Mio. 10,0% 0,0006% 9,0%
70 berliner Zeitung 3 Mio. 58,3% 0,0023% 34,3%
120 Total 6 Mio. 100% 0,0067% 100%

Gegenüberstellung von PTV, GWV und rel. Häufigkeiten (bei einer Gesamtheit von 120 Treffern):

1.4 Relative Häufigkeiten in Wortformlisten

Eine weitere Form von relativen Häufigkeiten wird außerdem in der Suchanfragestatistik für die Einzelwortteilanfragen angezeigt, wenn die Option für die Worthäufigkeiten eingeschaltet ist.

2. Differenzenkoeffizient

2.1 Definition

Der Differenzenkoeffizient normiert die absolute Trefferhäufigkeit auf den Wertebereich -1 bis +1, indem er die tatsächlich in einem Korpusquerschnitt beobachtete Trefferhäufigkeit mit der erwarteten Häufigkeit vergleicht. Siehe hier für eine genaue Formel.

Die Wertebereich -1 bis +1 ist wie folgt zu verstehen:

2.2 Anwendbarkeit

Der Differenzenkoeffizienten ist in COSMAS II analog zu den relativen Häufigkeiten nur mit den folgenden Suchanfragetypen vereinbar:

3. Häufigkeitsklassen

3.1 Definition

Der Suchbegriff wird durch Vergleich seiner Häufigkeit mit der des häufigsten Wortes (in deutschsprachigen Textkorpora ist dies i.A. "der", nachfolgend auch Referenz(wort)) auf Häufigkeitsklassen abgebildet. Siehe hier für eine genaue Formel.

Das häufigste Wort hat die Klasse 0.
Treffer in der Häufigkeitsklasse 1 (2, etc.) treten annähernd ½ (¼, etc.) mal so oft wie das häufigste Wort auf.
Mit jeder höheren Klasse nimmt die Trefferhäufigkeit logarithmisch ab.

3.2 Anwendbarkeit

Mathematisch sinnvoll lassen sich die Häufigkeitsklassen nur auf bestimmte Einzelwortsuchanfragen anwenden, d.h.

Bei der Suche mit Platzhaltern macht COSMAS II eine Ausnahme für den Fall, dass der Platzhalterausdruck zu einer Wortformliste mit einer einzigen Wortform führt; in diesem Fall wird im automatischen Modus die Referenz Einzelwort, Groß/Klein/Diakr. beachten eingeschaltet.
Da COSMAS II bei einem Platzhalterausdruck nicht feststellen kann, ob damit alle Flexionsformen eines einzigen Wortes ausgedrückt werden, lehnt es für alle anderen Fälle die Berechnung der Häufigkeitsklassen ab.
Sind Sie der Meinung, dass im Fall Ihrer Suchanfrage die Berechnung möglich sei, schalten Sie die Referenz Einzelwort, Groß/Klein/Driakr. ignorieren manuell ein.

3.3 Referenz der Häufigkeitsklassen

Die Häufigkeitsklasse einer ausgeführten Suchanfrage wird bezüglich einer mathematisch sinnvollen Referenz berechnet. Die folgenden Referenzen werden in COSMAS II hinzugezogen:

Im manuellen Modus erhalten Sie einen Hinweis, wenn die von Ihnen eingestellte Referenz nicht zu Ihrer Suchanfrage passt; die Häufigkeitsklassen werden aber trotzdem berechnet und angezeigt. Im automatischen Modus wird im selben Fall mit einem entsprechenden Hinweis die Berechnung abgebrochen.

3.4 Beispiele von Suchanfragen und zugehöriger Referenz

In der folgenden Tabelle wird an Hand von Beispielen gezeigt, wann und wie eine Referenz einem Suchanfragetyp zugeordnet wird.

Für die Zuordnung spielen die folgenden Faktoren eine Rolle:

Die Suchoptionen (Groß/Klein/Diakr. beachten/ignorieren) werden nicht direkt berücksichtigt und werden oft durch die Art der Referenz überschrieben (siehe Beispiele).

In der rechten Spalte steht die Referenz, die im automatischen Modus von COSMAS II gewählt wird.

Suchanfrage Suchoption Wortformliste Aktion des Benutzers
auf Wortformliste
gewählte Referenz
Wolle G/K/D beachten Wolle - Einzelwort, G/K/D beachten
Wolle G/K/D ignorieren Wolle wolle WOLLE… - Einzelwort, G/K/D ignorieren;
problematisch, da die Wortformen
nicht einer einzigen Grundform
angehören
wolle G/K/D ignorieren wolle alle großgeschriebenen
Varianten deaktiviert,
nur eine Wortform übrig
Einzelwort, G/K/D beachten,
da nur eine Wortform in der Liste,
wird beachten statt ignorieren verwendet
Kaminfeger G/K/D ignorieren Kaminfeger keine Aktion, Wort hat
im aktuellen Korpus nur eine Variante.
Einzelwort, G/K/D beachten,
da nur eine Wortform in der Liste,
wird beachten statt ignorieren verwendet
Katze oder Hund oder Kaninchen - Katze KATZE Hund HUND… - nicht möglich
für Operator ODER
Wolle* - Wolle Wollen Wollecke… - wegen Platzhalter nicht möglich
Wolle* - Wolle alle bis auf eine
Wortform deaktiviert
Einzelwort, G/K/D beachten
Ausnahme, da nur eine Wortform in der Liste
&Wolle Flexionsformen Wolle WOLLE - Lemma
&Wolle Flexionsformen +
Komposita
Wolle Ziegenwolle… - nicht möglich,
da Opt. Komposita eingeschaltet
wolle /+w1 wissen - - - nicht möglich für
alle anderen Suchoperatoren

Wert eines Häufigkeitsmaßes in der Zusammenfassung

Am Ende einer Ergebnispräsentation wird auf einer Zeile eine Zusammenfassung angezeigt. Für die relativen Häufigkeiten und die Häufigkeitsklassen lässt sich an dieser Stelle auch ein Wert angeben.

Beispiel

Anzahl Treffer rel. Häufig. Jahrzehnt
820.000034%1990-1999
3250.000032%2000-2009
Zusammenfassung über die Jahrzehnte:
4070.000032%1990-2009

Für die Berechnung des Häufigkeitsmaßes in der Zusammenfassung werden die Anzahl Treffer und die Korpusgröße insgesamt genommen.

Alternativ dazu, den Durschnittswert über alle Korpusquerschnitte (hier alle Jahrzehnte) für die Zusammenfassung zu nehmen, kann zu verzerrten Werten führen, da z.B. eine große Zahl von kleinen Korpusquerschnitten mit niedrigem Häufigkeitswert den Durchschnittswert überproportional nach unten drückt.

Grafische Darstellung von Ergebnissen mit Häufigkeitsmaßen

In einer nächsten Version von COSMAS II werden die obigen Häufigkeiten auch in grafischer Form präsentiert.

COSMAS II, Zentrale DV-Dienste - 07. 09. 2009