Anwendung von Häufigkeitsmaßen in den Ergebnispräsentationen
Probleme bei der Interpretation von Ergebnissen
Lassen Sie Vorsicht walten, wenn Sie die absoluten Angaben über die Trefferzahlen in mehreren Einträgen (= Korpusausschnitten) einer Ergebnispräsentation direkt miteinander vergleichen, da diesen Korpusausschnitten unterschiedlich viele Texte und Textwörter im aktiven Korpus zugrunde liegen, sie somit keine gemeinsame Vergleichsgrundlage bilden.
Beziehen Sie dabei immer auch, im aktiven Korpus, die Verteilung der Anzahl der Textwörter über diese Korpusausschnitte in der gleichnamigen Korpuspräsentation mit ein.
Beispiel
Die Suchanfrage "Tunnel" liefert in der Quellenansicht folgendes Ergebnis:
| Ergebnispräsentation nach Quellen | ||
|---|---|---|
| Anzahl Treffer | … | Quelle |
| 119 | … | Mannheimer Morgen |
| 618 | … | Oberösterreichische Nachrichten |
Das Verhältnis zwischen den absoluten Trefferzahlen ist rund 1:5. Um etwas aussagekräftiges über dieses Verhältnis aussagen zu können, müssen Sie die zugehörige Korpusansicht für die gleichen Quellen hinzuziehen:
| Korpuspräsentation nach Quellen | ||
|---|---|---|
| Anzahl Textwörter | … | Quelle |
| 15.383.141 | … | Mannheimer Morgen |
| 26.819.423 | … | Oberösterreichische Nachrichten |
Hier stellen Sie fest, dass die Vergleichbasis für die entsprechenden Quellen rund das Verhältnis 1:2 aufweist.
Ergebnis: Während der Mannheimer Morgen etwa halb so viele Treffer aufweist wie zu erwarten wäre (Erwartung: ca. 1/3 der 119+618 Treffer, also ca. 250), weisen die Oberösterreichische Nachrichten überdurchschnittlich viele Treffer (Erwartung: ca 2/3 der 119+618 Treffer, also ca. 490) auf.
Ausweg: Häufigkeitsmaße
Um verschiedene Einträge einer Ergebnispräsentation dennoch direkt untereinander vergleichen zu können, ist die Hinzunahme verschiedener Häufigkeitsmaße sinnvoll. COSMAS II bietet die drei folgenden Maße an, die Sie über die Ergebnispräsentationsoptionen ein- und ausschalten können.
Eine Einführung und mathematische Definitionen hierzu finden Sie in einer Übersicht über korpuslinguistische Häufgkeitsmaße des Programmbereichs Korpuslinguistik.
1. Relative Häufigkeiten
1.1 Definition
Die relative Häufigkeit eines gesuchten Wortes gibt hier an, welchen prozentualen Anteil dieses Wort an der Größe eines Korpusquerschnitts (also der Gesamtheit der laufenden Wortformen in diesem Korpusquerschnitt) einnimmt (siehe hier für eine Formel).
Beispiel:
| Anz. Treffer (= absolute H.) | Quelle | Anz. Wortformen in Quelle | rel. Häufig. |
|---|---|---|---|
| 38 | die tageszeitung | 331.454.109 | 0,000011% |
1.2 Anwendbarkeit der relativen Häufigkeiten
Die relativen Häufigkeiten sind in COSMAS II nur mit den folgenden Suchanfragetypen vereinbar:
- Einzelwortsuchen (mit oder ohne Platzhalter),
- Lemmatisierte Suche und
- dieselben mit ODER kombiniert.
Beispiele von anwendbaren Suchanfragen: "Haus", "&Haus", "Haus*", "&Haus oder &Gebäude".
1.3 Alternative Berechnungen zu den relativen Häufigkeiten
Ebenfalls denkbar wäre, anstelle der hier verwendeten relativen Häufigkeit zwei andere prozentuale Darstellungen zu verwenden, die leicht mit den in COSMAS II berechneten relativen Häufigkeiten verwechselt werden können. Daher seien die Unterschiede hier kurz erläutert.
Bei der prozentualen Trefferverteilung (PTV) wird der prozentuale Anteil der Treffer eines Korpusquerschnittes an der Gesamtheit der Treffer angegeben:
Beispiel:
Anz. Treffer im Mannheimer Morgen = 38
Gesamtheit der Treffer = 120
prozentualer Anteil der Treffer für den MM = (38/120)*100 = 31.6%
Siehe dazu die Spalte PTV in der nächsten Tabelle. Der direkte Vergleich der PTV-Werte in der Tablle ist insofern irreführend, alls dass in den berechneten Werte die Größe der jeweiligen Korpusquerschnitte nicht berücksichtigt wurden.
Die geschätzte Wahrscheinlichkeitsverteilung (GWV) hingegen berücksichtigt die unterschiedlich großen Korpusquerschnitte, indem sie die relativen Trefferhäufigkeiten in den Querschnitten einbezieht:
Beispiel:
Anz. Treffer im Mannheimer Morgen = 38
rel. Häufigkeit in Bezug auf den Umfang des MMs = (38/1000000)*100 = 0,0038%
Summe der relativen Trefferhäufigkeiten über alle Querschnitte = 0,0067
geschätzte Wahrscheinlichkeit für den MM = 56.7%
Siehe dazu die Spalte GWV in der nächsten Tabelle.
| Anz. Treffer (= absolute H.) |
Quelle | Umfang der Quelle in Mio. Wortformen |
PTV | rel. Häuf. | GWV |
|---|---|---|---|---|---|
| 38 | Mannheimer Morgen | 1 Mio. | 31,6% | 0,0038% | 56,7% |
| 12 | die tageszeitung | 2 Mio. | 10,0% | 0,0006% | 9,0% |
| 70 | berliner Zeitung | 3 Mio. | 58,3% | 0,0023% | 34,3% |
| 120 | Total | 6 Mio. | 100% | 0,0067% | 100% |
1.4 Relative Häufigkeiten in Wortformlisten
Eine weitere Form von relativen Häufigkeiten wird außerdem in der Suchanfragestatistik für die Einzelwortteilanfragen angezeigt, wenn die Option für die Worthäufigkeiten eingeschaltet ist.
2. Differenzenkoeffizient
2.1 Definition
Der Differenzenkoeffizient normiert die absolute Trefferhäufigkeit auf den Wertebereich -1 bis +1, indem er die tatsächlich in einem Korpusquerschnitt beobachtete Trefferhäufigkeit mit der erwarteten Häufigkeit vergleicht. Siehe hier für eine genaue Formel.
Die Wertebereich -1 bis +1 ist wie folgt zu verstehen:
- Ein Wert von annähernd 0 bedeutet, dass der gesuchte Ausdruck ungefähr mit der erwarteten Häufigkeit auftritt.
- Ein Wert zwischen 0 und -1 bedeutet, dass der gesuchte Ausdruck seltener als erwartet auftritt. Kommt er in einem Korpusquerschnitt nicht vor, ist der Wert -1.
- Ein Wert zwischen 0 und +1 bedeutet, dass der gesuchte Ausdruck häufiger als erwartet auftritt.
2.2 Anwendbarkeit
Der Differenzenkoeffizienten ist in COSMAS II analog zu den relativen Häufigkeiten nur mit den folgenden Suchanfragetypen vereinbar:
- Einzelwortsuchen (mit oder ohne Platzhalter),
- Lemmatisierte Suche und
- dieselben mit ODER kombiniert.
3. Häufigkeitsklassen
3.1 Definition
Der Suchbegriff wird durch Vergleich seiner Häufigkeit mit der des häufigsten Wortes (in deutschsprachigen Textkorpora ist dies i.A. "der", nachfolgend auch Referenz(wort)) auf Häufigkeitsklassen abgebildet. Siehe hier für eine genaue Formel.
Das häufigste Wort hat die Klasse 0.
Treffer in der Häufigkeitsklasse 1 (2, etc.) treten annähernd ½ (¼, etc.)
mal so oft wie das häufigste Wort auf.
Mit jeder höheren Klasse nimmt die Trefferhäufigkeit logarithmisch ab.
3.2 Anwendbarkeit
Mathematisch sinnvoll lassen sich die Häufigkeitsklassen nur auf bestimmte Einzelwortsuchanfragen anwenden, d.h.
- Einzelwortsuchen, sowohl unter Beachtung als auch Ignorieren der Groß-/Kleinschreibung/Diakritika, ohne Platzhalter, und
- Suchen von Flexionsformen eines Lemmas.
Bei der Suche mit Platzhaltern macht COSMAS II eine Ausnahme
für den Fall, dass der Platzhalterausdruck zu einer Wortformliste
mit einer einzigen Wortform führt;
in diesem Fall wird im automatischen Modus die Referenz
Einzelwort, Groß/Klein/Diakr. beachten eingeschaltet.
Da COSMAS II bei einem Platzhalterausdruck nicht feststellen kann,
ob damit alle Flexionsformen eines einzigen Wortes ausgedrückt werden,
lehnt es für alle anderen Fälle die Berechnung der Häufigkeitsklassen ab.
Sind Sie der Meinung, dass im Fall Ihrer Suchanfrage die Berechnung
möglich sei, schalten Sie die Referenz Einzelwort,
Groß/Klein/Driakr. ignorieren manuell ein.
3.3 Referenz der Häufigkeitsklassen
Die Häufigkeitsklasse einer ausgeführten Suchanfrage wird bezüglich einer mathematisch sinnvollen Referenz berechnet. Die folgenden Referenzen werden in COSMAS II hinzugezogen:
Einzelwort, Groß/Klein/Diakr. beachten
für eine Einzelwortsuche, bei der Groß- und Kleinschreibung und Diakritika beachtet werden.
Als Referenz (für die Bestimmung der Klasse 0) nimmt COSMAS II die Häufigkeit der Wortform der im gesamten aktiven Korpus.
Beispiel: Suche: Wolle, Wortformliste enthält nur Wolle.
Einzelwort, Groß/Klein/Diakr. ignorieren
für eine Einzelwortsuche, bei der Groß- und Kleinschreibung und Diakritika ignoriert werden.
Als Referenz (für die Bestimmung der Klasse 0) nimmt COSMAS II die Gesamthäufigkeit der groß und klein geschriebenen Varianten von der im gesamten aktiven Korpus.
Beispiel: Suche: wolle, Wortformliste enthält wolle, Wolle, …
Lemma
für eine Lemmasuche, bei der Groß- und Kleinschreibung und Diakritika ignoriert oder beachtet werden und nur die Lemmatisierungsoption Flexionsformen aktiv ist.
Als Referenz (für die Bestimmung der Klasse 0) nimmt COSMAS II die Gesamthäufigkeit der bestimmten Artikeln der, die, das, dem, den, des im gesamten aktiven Korpus.
Beispiel: Suche: &wollen, Wortformliste enthält will, Will, wolle, Wolle, …
automatisch
für eine der drei obigen Referenzen. COSMAS II stellt eine der drei obigen Unteroptionen aufgrund der Suchanfrage und -optionen automatisch ein.
Beispiel: Suche: &wollen, Wortformliste enthält will, Will, wolle, Wolle, …, so setzt COSMAS II die Option Referenz automatisch auf Lemma.
Im manuellen Modus erhalten Sie einen Hinweis, wenn die von Ihnen eingestellte Referenz nicht zu Ihrer Suchanfrage passt; die Häufigkeitsklassen werden aber trotzdem berechnet und angezeigt. Im automatischen Modus wird im selben Fall mit einem entsprechenden Hinweis die Berechnung abgebrochen.
3.4 Beispiele von Suchanfragen und zugehöriger Referenz
In der folgenden Tabelle wird an Hand von Beispielen gezeigt, wann und wie eine Referenz einem Suchanfragetyp zugeordnet wird.
Für die Zuordnung spielen die folgenden Faktoren eine Rolle:
- der Typ der Suchanfrage: Einzelwortsuche, Lemmasuche, Verwendung von Platzhaltern, andere Operatoren;
- die Lemmatisierungsoptionen;
- die Anzahl Wortformen in der generierten Wortformliste;
damit verbunden ist sowohl die Aktion des Benutzers, der Wortformen in der Liste deaktivieren kann als auch die Anzahl der im aktiven Korpus gefundenen Varianten des gesuchten Wortes bzw. Lemmas.
Die Suchoptionen (Groß/Klein/Diakr. beachten/ignorieren) werden nicht direkt berücksichtigt und werden oft durch die Art der Referenz überschrieben (siehe Beispiele).
In der rechten Spalte steht die Referenz, die im automatischen Modus von COSMAS II gewählt wird.
| Suchanfrage | Suchoption | Wortformliste | Aktion des Benutzers auf Wortformliste |
gewählte Referenz |
|---|---|---|---|---|
| Wolle | G/K/D beachten | Wolle | - | Einzelwort, G/K/D beachten |
| Wolle | G/K/D ignorieren | Wolle wolle WOLLE… | - | Einzelwort, G/K/D ignorieren; problematisch, da die Wortformen nicht einer einzigen Grundform angehören |
| wolle | G/K/D ignorieren | wolle | alle großgeschriebenen Varianten deaktiviert, nur eine Wortform übrig |
Einzelwort, G/K/D beachten, da nur eine Wortform in der Liste, wird beachten statt ignorieren verwendet |
| Kaminfeger | G/K/D ignorieren | Kaminfeger | keine Aktion, Wort hat im aktuellen Korpus nur eine Variante. |
Einzelwort, G/K/D beachten, da nur eine Wortform in der Liste, wird beachten statt ignorieren verwendet |
| Katze oder Hund oder Kaninchen | - | Katze KATZE Hund HUND… | - | nicht möglich für Operator ODER |
| Wolle* | - | Wolle Wollen Wollecke… | - | wegen Platzhalter nicht möglich |
| Wolle* | - | Wolle | alle bis auf eine Wortform deaktiviert |
Einzelwort, G/K/D beachten Ausnahme, da nur eine Wortform in der Liste |
| &Wolle | Flexionsformen | Wolle WOLLE | - | Lemma |
| &Wolle | Flexionsformen + Komposita |
Wolle Ziegenwolle… | - | nicht möglich, da Opt. Komposita eingeschaltet |
| wolle /+w1 wissen | - | - | - | nicht möglich für alle anderen Suchoperatoren |
Wert eines Häufigkeitsmaßes in der Zusammenfassung
Am Ende einer Ergebnispräsentation wird auf einer Zeile eine Zusammenfassung angezeigt. Für die relativen Häufigkeiten und die Häufigkeitsklassen lässt sich an dieser Stelle auch ein Wert angeben.
Beispiel
| Anzahl Treffer | rel. Häufig. | … | Jahrzehnt |
|---|---|---|---|
| 82 | 0.000034% | … | 1990-1999 |
| 325 | 0.000032% | … | 2000-2009 |
| Zusammenfassung über die Jahrzehnte: | |||
| 407 | 0.000032% | … | 1990-2009 |
Für die Berechnung des Häufigkeitsmaßes in der Zusammenfassung werden die Anzahl Treffer und die Korpusgröße insgesamt genommen.
Alternativ dazu, den Durschnittswert über alle Korpusquerschnitte (hier alle Jahrzehnte) für die Zusammenfassung zu nehmen, kann zu verzerrten Werten führen, da z.B. eine große Zahl von kleinen Korpusquerschnitten mit niedrigem Häufigkeitswert den Durchschnittswert überproportional nach unten drückt.
Grafische Darstellung von Ergebnissen mit Häufigkeitsmaßen
In einer nächsten Version von COSMAS II werden die obigen Häufigkeiten auch in grafischer Form präsentiert.