Programmbereich Korpuslinguistik
Methoden der Korpusanalyse und -erschließung
Eine kurze Einführung in die Kookkurrenzanalyse und syntagmatische Muster
Programmbereich Korpuslinguistik
Institut für Deutsche Sprache
Postfach 10 16 21,
D-68016 Mannheim
email: korpuslinguistik@ids-mannheim.de
Erstveröffentlichung: 22. April 2004
Zitierhinweise
Bitte zitieren Sie dieses Dokument in der folgenden Form:
Rainer Perkuhn und Cyril Belica: Eine kurze Einführung in die Kookkurrenzanalyse und syntagmatische Muster. Institut für Deutsche Sprache, Mannheim. 2004. https://www.ids-mannheim.de/digspra/kl/misc/tutorial
Falls Sie eine Referenz auf die hier beschriebene Kookkurrenzanalyse selber wünschen, wählen Sie bitte folgende Angabe:
Cyril Belica: Statistische Kollokationsanalyse und -clustering. Korpuslinguistische Analysemethode. Institut für Deutsche Sprache, Mannheim. 1995. http://corpora.ids-mannheim.de/
Weiterführende Veröffentlichungen zu diesem Thema finden Sie über die jeweiligen persönlichen Webseiten der Mitarbeiter des Programmbereichs Korpuslinguistik. Bei Interesse können Sie aber auch gerne mit uns per Email unter der o.g. Adresse Kontakt aufnehmen.
Vorbemerkung
Stellen Sie sich vor, bei der Zubereitung eines Käsekuchens haben Sie 100 Rosinen in den Teig gegeben. Nachdem Sie drei Stücke, d.h. ungefähr ein Viertel, gegessen haben, sind Sie ganz enttäuscht, weil Sie erst 10 von den 100 Rosinen (nur ein Zehntel!) wieder entdeckt haben. Läßt Sie das nicht stutzig werden? Hätten es nicht ungefähr 25 Rosinen sein müssen? Na gut, mit einer leichten Abweichung (3 oder 5?) hätten Sie leben können. Aber nur 10? Andrerseits wären Sie sehr wahrscheinlich froh, aber genau so verwundert, wenn Sie deutlich mehr als 30 Rosinen in Ihrem Viertel gefunden hätten. Vielleicht hätten Sie vermutet, dass irgendeine magische Anziehungskraft dafür gesorgt hat, dass sich die Rosinen verstärkt in einem Bereich sammeln.
In dem Käsekuchen-Szenario mag die Anziehungskraft zunächst nicht nur magisch, sondern auch mystisch anmuten. Weniger mystisch wäre die Kraft aber sicherlich, wenn der Kuchen nicht vertikal sondern horizontal aufgeschnitten wird. Vorausgesetzt, der Teig wäre sehr flüssig gewesen, dann wäre die Schwerkraft eine sehr plausible Erklärung, warum im oberen Viertel deutlich weniger, im unteren Viertel deutlich geballt Rosinen zu finden sind.
Wörter verteilen sich leider nicht so in der Sprache wie Rosinen im Käsekuchen. Und “Aufschneiden” kann man die Sprache auf viele verschiedene Arten. Eine Erklärung für die mystische Anziehungskraft bei sprachlichen Phänomenen zu finden gestaltet sich sicher viel schwieriger als beim Käsekuchen
Unter Kookkurrenzanalyse (bisweilen auch Kollokationsanalyse genannt) versteht man verschiedene, auf mathematisch-statistischen Verfahren basierende Methoden zur Analyse von Korpora. Die hier beschriebene Methode wurde in den Jahren 1994 und 1995 von Cyril Belica konzipiert und steht seidem den Linguisten auf der ganzen Welt über das COSMAS-System zur Verfügung, um die weltweit größte elektronische Sammlung deutschsprachiger Texte für die linguistische Forschung, das Deutsche Referenzkorpus, noch besser erschließen zu können.
Für die Kookkurrenzanalyse ist ein Stück aus dem Kuchen auszuschneiden, d.h. ein Ausschnitt aus den Korpora zu definieren. Die Analyse bewertet dann, wie wahrscheinlich oder unwahrscheinlich es ist, dass die Wörter in dem Ausschnitt zufälligerweise so oft in dem Ausschnitt vorkommen, wie sie vorkommen. Die Wörter, die auffällig öfter vertreten sind als erwartet, werden angezeigt. Es ist dann die Aufgabe einer weitergehenden Interpretation zu ergründen, welche Anziehungskraft zu diesem Befund geführt hat. Die Auswahl des Korpusausschnitts kann im Prinzip nach ganz verschiedenen Kriterien erfolgen: Texte einer bestimmten Zeit, aus einer bestimmten Region, von einem bestimmten Autor oder zu einem bestimmten Thema. Normalerweise geschieht dies aber über Korpusauswahl, Suche nach einem bestimmten Wort bzw. einer Wortform und Kontextdefinition. Für die folgenden Beschreibungen gehen wir von dieser Variante aus. Für die Interpretation liegt es dann nahe, von einer Kohäsion in Bezug auf das Auswahlkriterium, bei einer Suche von einer Affinität zu dem Suchbegriff auszugehen …
Die Kookkurrenzanalyse ist kein einzelnes, starres Verfahren, vielmehr eröffnet sie eine ganze Bandbreite von Möglichkeiten. So wie es verschiedene Phänomene in der Sprache gibt, die untersuchenswert sind, so gibt es unterschiedliche Arten, Kookkurrenzanfragen zu formulieren. Nach der Korpusauswahl und der Suchanfrage ist der zu analysierende Kontext zu definieren und es sind die Werte verschiedener Parameter festzulegen. Für den Kontext und die Parameter werden Standardwerte vorgeschlagen, die sich bereits für viele Fragestellungen bewährt haben.
Wir empfehlen, Analysen zunächst mit diesen Standardwerten durchzuführen. Mit ein wenig Erfahrung lohnt es sich dann sicher, ein wenig zu “experimentieren” und die Werte einzelner Parameter zu variieren. Diese kleine Tutorial ist eher technisch gehalten und soll dazu dienen, das Verständnis dafür zu fördern, welche Auswirkung es auf die Analyse hat, wenn der Wert eines Parameters verändert wird.
Kurz zusammengefasst:
- Die Kookkurrenzanalyse ermöglicht das Aufdecken von signifikanten Regelmäßigkeiten bei der Verwendung von Wortkombinationen.
- “Signifikanz” hängt vom betrachteten Korpus und den eingestellten Parametern ab!
- Interpretation ist Aufgabe des Menschen!
Annahmen
-
gewisse Vertrautheit mit COSMAS
- insbesondere Suchanfragen
- Kookkurrenzanalyse bereits ausprobiert
-
Schwerpunkte
- nach abgeschlossener Suche
- Parameter der Kookkurrenzanfrage
Suchanfrage
Ausgangspunkt für die Kookkurrenzanalyse sind die vereinigten Kontexte aller Trefferobjekte einer Suchanfrage. Nach Korpusauswahl bzw. virtueller Zusammenstellung ist zunächst eine Suchanfrage zu formulieren. Bei deren Formulierung ist darauf zu achten, dass die Wortform[en], die Gegenstand der Untersuchung sein soll[en], den eindeutigen Kern des Trefferobjektes ausmachen (Position 0 in der Tabelle unten). Dies gilt trivialerweise für die Suche nach einer bestimmten Wortform oder nach den Wortformen, denen dieselbe Grundform (oder derselbe reguläre Ausdruck) zugrundeliegt. Bei komplexeren Suchanfragen (Verknüpfung über Abstandsoperatoren, logische Operatoren o.ä.) ist dies nicht garantiert: der Kern kann von Treffer zu Treffer verschieden sein. Daraus ergibt sich, dass die Kontexte der Trefferobjekte sehr uneinheitlich sind und dass deren Analyse zu Ergebnissen führt, deren Aussagekraft nicht abschätzbar ist.
Generell gilt, dass die Anzahl der Treffer nicht zu klein sein darf, damit die statistischen Analysen verläßliche Aussagen liefern können.
Suchergebnis zu der Wortform “Stücken”
Für die Erläuterungen im weiteren Verlauf sei angenommen, dass nach der Wortform “Stücken” gesucht wurde. Folgende Tabelle illustriert zeilenweise das Suchergebnis anhand dreier (strukturell prototypischer) Vertreter.
Position: | -10 | -9 | -8 | -7 | -6 | -5 | -4 | -3 | -2 | -1 | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Wortform | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | Stücken | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx |
xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | . | xxxx | xxxx | xxxx | Stücken | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | |
xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | Stücken | xxxx | xxxx | xxxx | . | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx |
Kookkurrenzanfrage
Für eine Kookkurrenzanfrage können verschiedene Parameter eingestellt werden. Einige der Parameter legen den zu analysierenden Kontext fest, andere Parameter steuern die Vorgehensweise bei der Analyse. Schließlich gibt es Parameter, die sich auf die Darstellung der Ergebnisse auswirken.
[Die Eingabemaske für die Parameter kann in der aktuellen COSMAS Version (z.Z. COSMAS II) in der Darstellung leicht von der hier gezeigten abweichen, die Parameter und die Eingabemöglichkeiten stehen aber unter jeder Version gleichermaßen zur Verfügung.]
KA erste Parameter
- zunächst wird die Größe des zu analysierenden Kontextes gewählt (ein Standardwert wäre 5 links und 5 rechts)
- dann ist zu entscheiden, ob Satzgrenzen berücksichtigt werden sollen oder nicht
Verändern Sie die Werte in obigem Formular und klicken Sie irgendwohin (nur nicht auf “zurücksetzen” oder “Analyse starten”), um die Auswirkung auf den zu analysierenden Kontext in der Tabelle unten anschaulich nachvollziehen zu können.
Position: | -10 | -9 | -8 | -7 | -6 | -5 | -4 | -3 | -2 | -1 | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Wortform | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | Stücken | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx |
xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | . | xxxx | xxxx | xxxx | Stücken | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | |
xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx | Stücken | xxxx | xxxx | xxxx | . | xxxx | xxxx | xxxx | xxxx | xxxx | xxxx |
KA Vorgehensweise
- jedes der im definierten Kontext eines Trefferobjekts enthaltenen (blauen) Wörter wird gezählt
- die ermittelte Anzahl wird verglichen mit dem Wert, der zu erwarten wäre (wenn das Wort zufälligerweise im Kontext des Bezugswortes wäre)
-
als Ergebnis wird das log-likelihood-ratio (LLR) als Maßzahl für die Abweichung des normalen Verhaltens vom beobachteten festgehalten
- [bei bekannter Gesamthäufigkeit f im Gesamtkorpus mit dem Umfang z.B. K = 2 * 109 und diesem Umfang der Stichprobe T = Kontextbreite * Anzahl Treffer (letztere eventuell durch 104 nach oben beschränkt)]
Wortform \ Häufigkeit in Treffermenge im Gesamtkorpus log-likelihood-ratio
(x_ _ _,y_ _ _,T,K)w001 x001 y001 z001 w002 x002 y002 z002 w003 x003 y003 z003 … … … … w999 x999 y999 z999
Lemmatisierung
- bei eingeschalteter Lemmatisierung werden die Wortformen nicht einzeln ausgewertet, sondern alle Wortformen, die auf dasselbe Lemma zurückgeführt werden können, werden zusammen ausgewertet
- dieser Schritt wird nur für die Wortformen in dem Kontext des Bezugswortes angewandt, nicht für das Bezugswort selbst! Ob dieses als Wortform oder Lemma gehandhabt werden soll, entscheiden Sie bereits bei der Formulierung der Suchanfrage
Wortformmenge \ Häufigkeit in Treffermenge im Gesamtkorpus log-likelihood-ratio
(xl_ _ _,yl_ _ _,T,K)wl001.1 ∪ wl001.2 ∪ … xl001 = xl001.1 + xl001.2 + … yl001 = yl001.1 + y001.2 + … zl001 wl002.1 ∪ wl002.2 ∪ … xl002 = xl002.1 + xl002.2 + … yl002 = yl002.1 + y002.2 + … zl002 wl003.1 xl003 = xl003.1 yl003 = yl003.1 zl003 … … … … wl999.1 xl999 = xl999.1 yl999 = yl999.1 zl999
- alle Wortformen wl00x.i, die in der Treffermenge vorhanden sind und die als Formen desselben Lemmas wl00x gedeutet werden, werden zu einer Menge zusammengefaßt, ihre Häufigkeiten in der Treffermenge und im Gesamtkorpus zusammengezählt
-
der LLR-Wert wird ausgehend von diesen kumulierten Häufigkeiten berechnet
- [dies kann manchmal nützlich sein, ist meistens aber eher ungünstig, da viele Wortverbindungen relativ starr sind und nicht in allen Flexionsformen zusammen auftreten; - sobald eine im Gesamtkorpus sehr häufige Wortform (großes yl00x.i) auch nur minimal in der Treffermenge vertreten ist (kleines xl00x.i), steigt für diese starren Verbindungen bei eingeschalteter Lemmatisierung die Anzahl der “Gegenbeispiele” (∑ yl00x._ - ∑ xl00x._), so dass sie nicht mehr als signifikant erkannt werden können (kleineres zl00x)]
Funktionswörter
- Funktionswörter kommen sehr häufig in der Sprache und somit auch in den Korpora vor
- in vielen Fällen sind sie auch sehr stark in den Treffermengen vertreten und verdrängen dadurch evtl. andere (interessantere?) Partner
- werden Funktionswörter mit in die Analyse einbezogen, können syntaktische Phänomene interessantere Erkenntnisse überdecken
-
für manche Wortverbindungen sind aber gerade die Funktionswörter von Bedeutung
- [geplant ist mittelfristig, eine hierarchisch gegliederte Liste anzubieten, aus der einzelne Klassen an- oder abwählbar sind, vorläufig kann nur empfohlen werden, zunächst in der Analyse auf Funktionswörter zu verzichten und diese erst später miteinzubeziehen, wenn bereits erste Erkenntnisse über das Verhalten des untersuchten Wortes vorliegen]
Zuverlässigkeit
-
inwieweit die Abweichung “beobachtet vs. normal” als relevant eingestuft werden soll, kann in drei Abstufungen vorgegeben werden
-
hoch: nur starke Abweichungen sind relevant
- [findet wenige Kookkurrenzpartner, aber diese zuverlässig, ignoriert aber evtl. interessante Kandidaten, z.B. zufällig aufgrund Korpusauswahl und -komposition]
- normal: mittlere Abweichungen sind relevant
-
analytisch: schwache Abweichungen sind relevant
- [findet viele Kookkurrenzpartner, aber diese evtl. unzuverlässig, kann u.U. auch schlechte Kandidaten mit erfassen]
Wortform nach LLR-Rang log-likelihood-ratio als primärer Partner
berücksichtigt bei
Zuverlässigkeit =wRang(1, [z001-z999]) z001' hoch normal analytisch wRang(2, [z001-z999]) z002' wRang(3, [z001-z999]) z003' … … … … ignoriert … … … … ignoriert … … … … ignoriert wRang(999, [z001-z999]) z999' -
hoch: nur starke Abweichungen sind relevant
Primärer Kookkurrenzpartner
- durch dieses Verfahren wird der erste (primäre) Kookkurrenzpartner gefunden, z.B. “aus” bei “Stücken”
- die Abweichung wird als LLR-Wert (früher Γ) angezeigt und bezieht sich auf diesen ersten ermittelten Kookkurrenzpartner (!)
- die Gesamtheit der Umgebungen des Kookkurrenzpartners ist Ausgangspunkt für sich nun wiederholende Schritte
Kookkurrenzpartner n. Stufe
- erneut wird ermittelt, ob ein Wort häufiger (in der Umgebung von Bezugswort und bisher ermittelter Partner) vorkommt als erwartet (gezählt und verglichen)
- ist dies der Fall, wird das Wort als Kookkurrenzpartner der nächsten Stufe festgehalten (ohne LLR-Wert)
-
dies wiederholt sich in der Breite für alle Kookkurrenzpartner und in der Tiefe, bis keine weiteren Kookkurrenzpartner ermittelt werden können
- [im nächsten Schritt z.B., ob Wörter in der Nähe von “frei” und “Stücken” überdurchschittlich häufig vorkommen]
- als Kandidaten für Kookkurrenzpartner n. Stufe werden nur Wörter berücksichtigt, die bereits als primärer Kookkurrenzpartner ermittelt wurden
-
komplett sieht die berechnete Information so aus:
Bezugswort Wortform nach LLR-Rang log-likelihood-ratio Partner n. Stufe wwww wRang(1, [z001-z999]) z001' w1.1 w1.1.1 w1.1.1.1 w1.1.2 w1.1.2.1 w1.1.2.2 w1.1.3 w1.2 w1.2.1 w1.2.1.1 w1.2.1.2 w1.2.2 w1.3 … wRang(2, [z001-z999]) z002' w2.1 w2.1.1 w2.1.1.1 w2.1.1.2 w2.1.2 w2.1.3 w2.1.3.1 w2.1.4 w2.1.4.1 w2.1.4.2 w2.1.5 w2.2 … wRang(3, [z001-z999]) z003' … … … …
Beispiel:
Bezugswort Wortform nach LLR-Rang log-likelihood-ratio Partner n. Stufe Stücken frei 9458 nachfolgen jung Frau jung Frau verlassen ganz … … … …
zeilenweise Darstellung:
Bezugswort: Stücken
BelegNr.
(ab Nr. + Anzahl)LLR Partner Häufigkeit 1 + 42 9458 frei nachfolgen jung Frau 42 43 + 1 9458 frei jung Frau 1 44 + 6 9458 frei jung 6 50 + 11 9458 frei Frau 11 61 + 18 9458 frei verlassen 18 79 + 24 9458 frei ganz 24 103 + 675 9458 frei 675 … … … …
Granularität
-
die Granularität gibt an, wieviele der nach Signifikanz sortierten Kookkurrenzpartner als möglicher Kandidat eines Kookkurrenzpartners n. Stufe in Frage kommen (das Maß ist hierbei eine Kombination von LLR und MI (mutual information)
- fein betrachtet die meisten (alle, die unter einem internen Schwellwert liegen)
- [zielt auf Wortverbindungen]
- mittel betrachtet weniger (alle, die unter dem Schwellwert - p % liegen)
- grob betrachtet nochmals weniger (nochmals - p %)
- sehr grob betrachtet am wenigsten (nochmals - p %)
- [zielt auf Schlagwörter]
Wortform nach LLR-/MI-Rang log-likelihood-ratio als Partner n. Stufe berücksichtigt bei
Granularität =wRang(1, [z001-z999]) z001' sehr grob grob mittel fein wRang(2, [z001-z999]) z002' wRang(3, [z001-z999]) z003' … … … … ignoriert … … … … ignoriert … … … … ignoriert … … … … ignoriert wRang(999, [z001-z999]) z999' - fein betrachtet die meisten (alle, die unter einem internen Schwellwert liegen)
Zuordnung der Belege
-
Belege (Treffer) können entweder eindeutig oder mehrfach zugeordnet werden
- [im Bsp. ist Zeile 2 beschrieben durch die Wörter “frei”, “jung” und “Frau”, Zeile 1 zusätzlich durch das Wort “nachfolgen”; ein Beleg, der nur “nachfolgen” nicht enthält, kann nur Zeile 2, ein Beleg, der alle vier Wörter enthält, kann im Prinzip beiden zugeordnet werden; bei eindeutig werden Belege der genauesten Beschreibung zugeordnet, also nur Zeile 1, bei mehrfach werden die Belege jeder, auch der allgemeineren Beschreibung zugeordnet; mehrfach ist zwar zeilenweise genauer, der Nutzer muß aber bedenken, dass genauere Beschreibungen mit erfasst sind, eindeutig ist spezifischer, der Nutzer muß ggf. selber summieren]
eindeutig KWICs mehrfach satz1 (frei, jung, Frau, nachfolgen)
satz2 (frei, jung, Frau, nachfolgen)
satz3 (frei, jung, Frau, nachfolgen)← satz1 (frei, jung, Frau, nachfolgen)
satz2 (frei, jung, Frau, nachfolgen)
satz3 (frei, jung, Frau, nachfolgen)
satz4 (frei, jung, Frau)
satz5 (frei, jung, Frau)→ satz1 (frei, jung, Frau, nachfolgen)
satz2 (frei, jung, Frau, nachfolgen)
satz3 (frei, jung, Frau, nachfolgen)satz4 (frei, jung, Frau)
satz5 (frei, jung, Frau)← → satz1 (frei, jung, Frau, nachfolgen)
satz2 (frei, jung, Frau, nachfolgen)
satz3 (frei, jung, Frau, nachfolgen)
satz4 (frei, jung, Frau)
satz5 (frei, jung, Frau)
Autofocus
-
ohne Autofocus wird der gesamte eingestellte Kontext betrachtet, mit Autofocus werden alle möglichen Kontexte innerhalb des vorgegebenen Kontextes ausgewertet und es wird derjenige ausgewählt, der den höchsten Signifikanzwert aufweist
Grenze des Subkontextes
links \ rechtsr … y … 0 … … … l l LLR[l,r] … LLR[l,y] … LLR[l,0] … … … LLR[l,l] … … … … … … … … … x LLR[x,r] … LLR[x,y] … LLR[x,0] … … … … … … … … … 0 LLR[0,r] … LLR[0,y] … LLR[0,0] … … … … … … … … … … … … r LLR[r,r]
Ist der maximale LLR-Wert in dieser Dreiecksmatrix etwa in dem Feld (x,y), wird dieser LLR-Wert und der Fokus [x,y] angegeben.- [Autofocus kann Wortverbindungen aufdecken, die bei festem Kontext außer acht gelassen werden, Bsp. 10.000 Treffer, Kontext 5/5, der betrachtete Ausschnitt umfasst 100.000 Wörter, taucht ein Wort nun z.B. 500mal auf, kann dies evtl. nicht signifikant sein, steht dieses Wort aber stets eine Position links vom Trefferobjekt - etwa ADJ N -, reicht Kontext 1/0, d.h. 10.000 Wörter und dann sind 500 Vorkommen eines Wortes sicher eher signifikant, Autofocus wählt diesen Kontext automatisch]
zeilenweise Darstellung:
Bezugswort: Stücken
BelegNr.
(ab Nr. + Anzahl)Fokus LLR Partner Häufigkeit 1 + 42 [-1,-1] 9458 frei nachfolgen jung Frau 42 43 + 1 [-1,-1] 9458 frei jung Frau 1 44 + 6 [-1,-1] 9458 frei jung 6 50 + 11 [-1,-1] 9458 frei Frau 11 61 + 18 [-1,-1] 9458 frei verlassen 18 79 + 24 [-1,-1] 9458 frei ganz 24 103 + 675 [-1,-1] 9458 frei 675 … … … … …
Anmerkung
Für jede erkannte Folge von auffälligen Partnerwörtern w1 w2 … wn gilt natürlich, dass auch jede Anfangsteilfolge w1 w2 … wx, x < n, eine auffällige Folge von Partnerwörtern ist. Bei der mehrfachen Zuordnung von Belegen werden auch alle Teilfolgen dargestellt, bei der eindeutigen Zuordnung der Belege werden nur die Teilfolgen dargestellt, für die die Menge von Belegen nicht-leer ist.Syntagmatische Muster
- für die Angabe des syntagmatischen Musters werden keine (!) tiefergehenden statistischen Auswertungen vorgenommen, es werden lediglich die Häufigkeiten innerhalb der Treffermenge ausgewertet
-
das syntagmatische Muster beschreibt
- relative Reihenfolge der Clusterelemente (Bezugswort und Kookkurrenzpartner) - jeweils in einer bestimmten Ausprägung (nicht-lemmatisierte Wortformen)
- unbestimmte Füllung der Lücken bzw. bestimmte Füllung der Lücken mit Grad der Bestimmtheit
schematisches Beispiel: xxx% wort1 wort2 wort3 wort4 wort5
- die Clusterelemente sind blau angegeben
-
die vorangestellte Prozentzahl gibt an, wie ausgeprägt die angegebene relative Reihenfolge dieser Elemente ist
- die Farbe, in der die Prozentzahl dargestellt wird, wird in 5 Stufen abgeschwächt
(schwarz = 100%,
sehr dunkles grau = 80 - 99%,
dunkles grau = 60 - 79%,
grau = 40 - 69%,
helles grau = 0 - 39%)
- die Farbe, in der die Prozentzahl dargestellt wird, wird in 5 Stufen abgeschwächt
-
die restlichen Angaben beschreiben, ob es Lücken zwischen den Clusterelementen gibt, und wenn ja, wie diese gefüllt sind
wort1 eine einzige Wf füllt Lücke wort0 wort1 Folge von Wf füllt Lücke wortx | worty verschiedene Wf füllen Lücke [ wortx ] Lücke ist nicht immer vorhanden . . . kein Füller tritt auffällig oft auf - es wird bei den Häufigkeitsangaben nicht berücksichtigt, wie oft eine Wortform überhaupt in den Korpora vorkommt, seltene Wortformen werden dadurch benachteiligt, häufige haben dadurch einen leichten Vorteil (z.B. Funktionswörter)
-
analog zur vorangestellten Prozentangabe drücken die Graustufen bei den Wortformen aus, wie oft diese die Lücken füllen
- wort1
- wort3
- wort5
- die eckigen Klammern für die “Optionalität” übernehmen das schwächste Grau des darin enthaltenen Ausdrucks
-
Grammatik für das Pattern
pattern = ( clusterElem | filler )+ filler = complexFiller complexFiller = complexFiller complexFiller | complexFiller '|' complexFiller | '[' complexFiller ']' | simpleFiller simpleFiller = '. . .' | <wortform> clusterElem = <wortform>