zeilenorientierte Eingabe → themenspezifische Fragestellungen

Themenspezifische Fragestellungen und deren Lösung

Einleitung

Auf dieser Seite werden einfache bis komplexe sprachwissenschaftliche Fragestellungen aufgelistet, für die konkrete Suchanfragen oder Suchanfragmuster angegeben und erläutert werden. Durch Rückverweise auf die zugehörigen Seiten der (zeilenorientierten) Syntax kann die Funktionsweise der benutzten Operatoren parallel dazu erlernt werden.

Für ein besseres Verständnis werden komplexe Suchanfragen nach und nach aufgebaut und erläutert, wobei die Teilanfragen mit Q1, Q2, etc. bezeichnet werden. Die vollständige Suchanfrage, wie sie auch von COSMAS II verstanden wird (die Q1, Q2, etc. sind nicht Bestandteil der Suchanfrage-Syntax), ergibt sich aus dem Einsetzen von Q1 in Q2, Q2 in Q3 etc.

Eine kochbuchartig aufgebaute Sammlung einfacherer Problemstellungen und deren Lösung ist ebenfalls verfügbar.
Eine generelle Bemerkung zu regulären Ausdrücken in COSMAS II-Suchanfragen finden Sie hier.

Übersicht

Wörter und Sonderzeichen:
- Wörter mit/ohne Bindestrich - aktualisiesrt
- Wörter mit/ohne Apostroph
- (Folgen von) Wortendungen suchen
- (Sammlung von) Suchanfragen zur Gendersprache - neu
Suchanfragen, die die Satzstruktur betreffen:
- Suche an einer bestimmten Satzposition
- Suche in Sätzen einer bestimmten Länge
Suchanfragen, die den ling. Satzbau betreffen:
Suchanfragen, die die formale Textstruktur betreffen:
Erweitern/Verändern des Suchbereichs eines Ergebnisses:
Suchanfragen mit morphosyntaktischen Annotationen (Wortklassen):
Suchanfragen für die Kookkurrenzanalyse:
- Einheitliches KWIC erstellen

Suchanfragen für Wörter mit/ohne Bindestrich

1. Suchanfragen nach dem Muster "Bauern- und Landfrauenverein"

Vorbemerkung

Der Tokenisierer von COSMAS II behandelt den Bindestrich wie Satzzeichen und Sonderzeichen an den Wortgrenzen: sie werden für die Suche am Ende des Wortes gelöscht, können dafür einzeln gesucht werden. Sucht man beispielsweise nach Bauern, findet man auf diese Weise »Bauern«, »Bauern-«, »Bauern,«, etc. Außerdem können durch die Suche nach dem Zeichen »-« alle Wörter mit Bindestrich am Wortende gefunden werden.

Das allgemeine Muster, um die obige Bindestrichform der Art X- und Y zu suchen, besteht somit aus den beiden Invarianten: dem Bindestrich und dem Wort "und".

Formulierung

Q1 = - /+w1:1,s0 "und"

Bemerkungen

der Suchbegriff »-« findet in COSMAS II Wörter mit einem Bindestrich am Wortende.
der Abstand zwischen dem Bindestrichwort und dem "und" wird mit /+w1:1,s0 so angegeben, dass sich die beiden gesuchten Wörter genau folgen und innerhalb eines Satzes befinden müssen.
das Wort und muss zwischen Hochkommata geschrieben werden, ansonsten wird es von COSMAS II als Operator UND verstanden.

Auszüge aus einem derart gewonnenen KWIC

Appenzeller- und Schweizer-Huhn-Züchter-Clubs
Wahl- und Stimmrecht.
Gesangs- und Instrumental-Mediationen
Plan- und Baugesuchsunterlagen

2. Bestimmte Realisierungen der Bindestrichform

Soll das Suchmuster X- und Y mit einem konkreten Wort für X oder Y eingegrenzt werden, kann am Beispiel von Bauern- und Landfrauenverein die folgende Suchanfrage formuliert werden:

Q2 = (- /w0 &Bauer) /+w1:1,s0 "und" /+w1:1,s0 &Landfrauenverein

Erläuterungen

die Suchbegriffe - und &Bauer werden mittels /w0 miteinander kombiniert und ergeben die Liste der Bindestrichwortformen von Bauer.
Für &Landfrauenverein schalten Sie in den Lemmatisierungsoptionen mindestens die Komposita ein.

Man kann noch einen Schritt weitergehen und statt Landfrauenverein ganz allgemein die Komposita von Verein suchen:

Q3 = (- /w0 &Bauer) /+w1:1,s0 "und" /+w1:1,s0 &Verein

Dies ergibt folgende Belege:

Auszüge aus den Ergebnissen der Suche Q3

Ergebnisse zu Bauern- und &Verein — Ergebnisse (Auszüge) zu *Bauern- und &Verein* in Archiv W

3. Ausschließen der Bindestrichform

Die unter 1. formulierte Bindestrichform kann genauso auch als unerwünschter Beleg auftreten.
Sucht man zum Beispiel nach den Genitivformen von Bauer unter Verwendung der folgenden Suchanfrage,

Q4 = (des oder eines) /+w2 (Bauern oder Bauers oder Bauerns)

so erhält man auszugsweise folgende unerwünschte Belege mit Bindestrichform:

des Bauern- und Winzerverbandes
Bauern- und des Weihnachtsmarktes

verbesserte Formulierung

Hierzu muss man von den Formen Bauern, Bauers und Bauerns die Bindestrichform mittels des Ausschießungsoperators %w0 ausschließen.

Q5 = (des oder eines) /+w2 ((Bauern oder Bauers oder Bauerns) %w0 -)

Suchanfragen für Wörter mit/ohne Apostroph

1. Apostrophe und ihre Varianten bzw. Kodierungen

Der Apostroph und andere ähnliche Sonderzeichen können in den IDS-Korpora mit unterschiedlicher Kodierung auftreten, wenn es für sie in der UNICODE-Welt mehrere Alternativen gibt. Die gewählte Kodierung hängt von verschiedenen Faktoren ab:

vom jeweiligen Verfasser,
vom Verlag,
vom verwendeten typografischen System, etc.

Das IDS unternimmt bewusst nichts, um die Alternativen zu normieren, sondern belässt stets die im Original vorkommende Schreibweise.

Beispiel mit Sophokles'. Folgende Kodierungen des Apostrophs wurden in W-gesamt gefunden bzw. nicht gefunden:

grafisches Zeichen	Anzahl	UNICODE-Kodierung	COSMAS II-Eingabe	Bemerkung
Sophokles'	278	dez. 39 = '	ALT-39 oder	korrekt, aber laut Wikipedia Ersatzzeichen
Sophokles‘	103	dez. 8216 = ‘	‘
Sophokles'	26	dez. 8217 = &8217;	’	laut Wikipedia: einzig typografisch korrekt
Sophokles’	0	dez. 146	ALT-146

2. Speicherung von Apostrophen in COSMAS II

Apostrophe werden, analog zu Satzzeichen:

getrennt vom Wort gespeichert, wenn sie am Wortende stehen;

Beispiel: Sophokles' → Sophokles + ' (2 Komponenten).

Somit sind beide Komponenten getrennt suchbar.
mit dem Wort gespeichert, wenn sie nicht am Wortende stehen;

Beispiel: darwin'sches → darwin'sches (1 Einheit).

Somit ist der Apostroph mit dem Wort und der Endung als eine Einheit suchbar.

Daraus ergeben sich die folgenden Such-Strategien bzw. Suchmuster.

3. Suchmuster

3.1 Mustersuche für Sophokles mit oder ohne Apostroph am Ende des Wortes

Das Suchwort muss auf jeden Fall ohne Apostroph eingegeben werden, da es (siehe oben), getrennt vom Apostroph gespeichert ist.

Sophokles (korrekt)

Mit dieser Anfrage werden die Vorkommnisse sowohl von Sophokles als auch von Sophokles' gefunden.

Sophokles' (falsch)

Die Angabe eines Apostrophs am Ende des Wortes liefert gemäß den obigen Erläuterungen keine Treffer.

3.2 Mustersuche für Sophokles mit Apostroph am Ende des Wortes

Sind nur die Vorkommnisse mit Apostroph erwünscht, müssen die oben aufgelisteten Varianten mit Hilfe des Operators /w0 (Wortabstand 0) wie folgt mit dem Suchwort verknüpft werden:

Sophokles /w0 (' oder "‘" oder "’")

Bemerkungen:

der erste Apostroph in der Klammer wird über seine Taste oder mit ALT-39 eingegeben wird.
die beiden Varianten können nur über ihren numerischen UNICODE-Wert als Zeichenkette eingeben werden.
Jeder &#Wert; wird zwischen "..." geschrieben, damit COSMAS II das & nicht als Lemmatisierungsoperator interpretiert.

3.3. Mustersuche für Sophokles ohne Apostroph am Ende des Wortes

Sind nur die Vorkommnisse ohne Apostrophe erwünscht, müssen die oben aufgelisteten Varianten mit Hilfe des Operators %w0 (Ausschließungsoperator mit Wortabstand 0) wie folgt mit dem Suchwort verknüpft werden:

Sophokles %w0 (' oder "‘" oder "’")

Es gelten hierbei die gleichen Bemerkungen wie im vorhergehenden Absatz.

3.4 Suchmuster für Silke's, Darwin'sche, usw.

In diesem letzten Fall befindet sich der Apostroph nicht am Ende des Wortes und muss mit dem Suchwort und der Endung angegeben werden:

Silke's oder Silke‘s oder Silke’s

Darwin'sche+ oder Darwin‘sche+ oder Darwin’sche+

Bemerkungen:

der erste Apostroph in der Klammer wird über seine Taste oder mit ALT-39 eingegeben.
die beiden Varianten können nur über ihren numerischen UNICODE-Wert als Zeichenkette eingeben werden.
Da &#Wert; innerhalb des Suchwortes auftritt, sind keine "..." nötig.
Mit dem Platzhalter + in Darwin'sche+ werden die folgenden Varianten ebenfalls gesucht: Darwin'sche, Darwin'schen, Darwin'sches, Darwin'scher.

Suchen nach (Folgen von) Wortendungen

Suchen nach Wortendungen in großen Archiven

Es gibt in COSMAS II eine Vielzahl von Möglichkeiten, Belege über Wortendungen zu suchen:

mit Hilfe des Platzhalters *, z.B. *en;
mit Hilfe des Operators #REG für reguläre Ausdrücke, z.B. #REG(Redakteur(s|e|en|in|innen)?);
mit Hilfe des Grundformoperators & durch Angabe eines Suffixes, z.B. &-ung.

Nachteil

In den großen Archiven wie W - W4 hat dies den Nachteil, dass zuerst eine sehr lange Liste von zu der Endung passenden Wörtern erstellt werden muss. Diese Liste kann Millionen von Wörtern enthalten und die Zeit für ihren Aufbau 1 Stunde und länger betragen.

Wenn außerdem mehrere solche Listen zu einer komplexen Suchanfrage verknüpft werden, kann die Ausführungszeit unverhältnismäßig ansteigen oder sogar wegen Überschreiten eines Zeitlimits abbrechen. Dazu das nächste Beispiel.

Suche nach Folgen von bestimmten Endungen von Nomen

Gesucht werden Belege von Folgen von Nomen auf ung nach dem Muster: N+ung N+ung,
wie z.B. in »… in Richtung Brandstiftung ermittelt wird.«.

Recherchiert wird in den folgenden Beispielen in den annotierten Archiven TAGGED-C und TAGGED-C2.

Wie eingangs erläutert wurde, ist die folgende naheliegende Suchanfrage unvorteilhaft bezüglich ihrer Ausführungszeit:

S1: (*ung /w0 MORPH(N)) /+w1:1,s0 (*ung /w0 MORPH(N))

In der Folge wird ein anderer Weg in COSMAS II beschrieben, um schneller bzw. überhaupt die gewünschten Ergebnisse zu erhalten.

Schnelle Suchanfrage mit anschließender Ergebnispräsentation nach Endungen

Um überhaupt in kürzerer Zeit an Belege zu kommen, wird hier empfohlen, zuerst eine Suchanfrage für Sequenzen von 2 Nomen auszuführen:

S2: MORPH(N){2:2}

Diese Suchfrage ist zwar allgemeiner als S1, ist aber syntaktisch gleichwertig, da mit dem Muster Nomen + Nomen nach einer Sequenz von 2 Wörtern gesucht wird. Außerdem ist sie sehr viel schneller, weil die Endungen noch nicht gesucht werden und der Wiederholungsoperator {2:2} rasch ausgeführt werden kann.

Die Ergebnisansicht nach Wortendungen

Das aufwändige Ausfindigmachen von Wortendungsfolgen in einer Treffermenge von hier ca. 90 Millionen Nomen-Paaren wird in COSMAS II nun in der Ergebnisansicht nach Endungen vorgenommen. Dazu muss in diesem Fall eine Endungslänge von 3 Zeichen eingestellt werden. Das geschieht in der gegenwärtigen Version mit folgender Anweisung im Suchfenster von COSMAS II, die mit dem Schalter suchen ausgelöst wird:

Im Reiter für die Ergebnisse wähle man nun die Ansicht nach Wort-Endungen, sortiere sie z.B. nach den Wortendungen und suche über die Suchfunktion des Browsers die Folge "UNG UNG", um zu dieser Endungsfolge zu gelangen.

Unter Umständen lohnt sich in dieser Ansicht ein Blick auf die Verteilung der verschiedenen Endungsfolgen, was mit der Suchanfrage S1 nicht möglich gewesen wäre.

Exportieren der gesuchten Belege

Durch Aufklappen z.B. des Eintrags für die Endungsfolge "UNG UNG" wird der entsprechende KWIC-Ausschnitt eingeblendet. Falls die Belege exportiert werden sollen, können sie in diesem Popup-Fenster ausgewählt bzw. aktiviert werden, z.B. über das Menü Seite aktivieren (links über den Häkchen):

Im Exportmenü wähle man dazu die Option nur ausgewählte Treffer, damit genau diese Belege (KWIC oder Volltext) exportiert werden.

Verfeinerungen und Varianten der Suchanfrage

S3: MORPH(N){2:2} %w0 ,

Suchanfrage S3 verfeinert die Suchanfrage S2, indem sie diejenigen Nomen-Folgen ausschließt, die mit einem Komma auftreten.

Die Ansicht nach Wort-Types und weitere Optionen

Die Ergebnisansicht nach Wort-Types kann ebenfalls dazu herangezogen werden, bestimmte Wortendungen oder Sequenzen von Wortendungen aufzufinden. Bei eingeschalteter Option Worttype-Endlänge = 3, siehe oben, wird die gesamte Wort-Type-Ansicht nach den Endungen sortiert, die Endungen werden blau angezeigt:

Der Nachteil ist der, dass diese Ansicht Endungsfolgen mehrfach anzeigt, da sie nach den Wort-Types und nicht nach den Endungen zusammengefasst wird. Es sind also wesentlich mehr Einträge in der Ansicht nach Wort-Types zu erwarten als in der Ansicht nach Endungen. Die Darstellung dieser langen Liste ist in einem Browser dementsprechend sehr langsam.

Intern wird die Ansicht nach Endungen aus der Ansicht nach Wort-Types generiert. Deshalb gelten für beide Präsentationsformen die Optionen für die Ansicht nach Wort-Types (in der aktuellen Version ist der Schalter Optionen nur in der Ansicht nach Wort-Types erreichbar):

Hinweis: Bei der Betrachtung von Endungen ist es von Vorteil, die Option Sonderzeichen auf beachten zu setzen, sollen nicht die Sonderzeichen selber an den Wortenden zusammengefasst und sortiert werden.

Suche an einer bestimmten Satzposition

Beispiel 1

Hierfür kann der Operator #IN verwendet werden. Mit seinem Argument läßt sich angeben, an welcher Stelle von Y der Suchbegriff X gesucht bzw. nicht gesucht werden soll. Wie in der folgenden Tabelle veranschaulicht wird, schließen sich die aus dem I-Wert L, R, F und N erhaltenen Ergebnisse gegenseitig aus.

Suchanfrage	Erläuterung	Häufigkeit¹
`wegen #IN(L) <s>`	wegen am Satzanfang	202.206
`wegen #IN(R) <s>`	wegen am Satzende	11.095
`wegen #IN(F) <s>`	wegen von Satzanfang bis Satzende	50
`wegen #IN(N) <s>`	wegen weder am Satzanfang noch -ende	1.455.943
	Summe von L, R, F und N	1.669.294
`wegen #IN <s>`	keine Spezifizierung, d.h. alle Fälle zusammen	1.669.294

Die Tabelle zeigt die Ergebnisse der Suche nach wegen (groß- oder kleingeschrieben, keine Unterscheidung der Wortklassen), in Sätzen (<s>) des gesamten Archivs für die Optionen L, R, F und N. Häufigkeit von wegen: 1.669.349. Anzahl Sätze: 222.564.359.

Diese 4 Optionen schließen sich gegenseitig aus. Ein und der gleiche Treffer kann z.B. nicht durch die Optionen L und F erhalten werden. Zusammengefasst werden diese Optionen bei der Verwendung von #IN ohne Option (letzte Suchanfrage in der obigen Tabelle), die die gleichen Treffer liefert wie die vier Optionen zusammen.

Die Vorgabe F ist in diesem Fall insofern exotisch, als dass sie den Suchbegriff nur in Sätzen der Länge 1 finden kann, bei denen Satzanfang und -ende identisch sind.

Bemerkungen

Analog lässt sich z.B. in Absätzen (), Überschriften (<ü>) und beliebigen anderen Textmarkierungen recherchieren.

Da wegen eigentlich 1.669.349 mal im Archiv belegt ist, wurden durch die obigen Suchanfragen 1.669.349 - 1.669.294 = 55 Fälle nicht abgedeckt. Es handelt sich um Fälle, bei denen wegen außerhalb einer <s> ... </s> Markierung (in einem <byline> außerhalb des Textbody) gefunden wurde. Diese Fälle lassen sich mit folgender Suchanfrage unter Verwendung der Ausschließungsoption % erfragen:

Q1 = wegen #IN(%) <s>

Q1 liefert tatsächlich die restlichen 55 Treffer.

Beispiel 2

In diesem Beispiel wird nach Sätzen gesucht, die mit unter und Hausarrest beginnen und enden. Zu diesem Zweck wird die Option F verwendet.

Q2 = unter /+s0 Hausarrest

Die Optionen FE und FI sind zwei Unteroptionen von F, die eine weitere Verfeinerung der Suchanfrage gestatten. Dabei verteilen sich alle Treffer von F entweder auf FE oder auf FI, wie aus der nächsten Tabelle ersichtlich ist:

Suchanfrage	Erläuterung	Häufigkeit¹
`Q1 #IN(F) <s>`	wegen am Satzanfang und Hausarrest am Satzende	13
`Q1 #IN(FE) <s>`	wie F, aber keine anderen Wörter im Satz	11
`Q1 #IN(FI) <s>`	wie F, aber mindestens ein weiteres Wort im Satz	2

Textbeispiel für einen Treffer mit FE

»Unter Hausarrest.«

Textbeispiel für einen Treffer mit FI

»Unter derselben Anklage sitzt der frühere Juntachef Jorge Videla seit fünf Monaten im Hausarrest.«

¹ : im Archiv W - Achiv der geschriebenen Korpora, Stand August 2009.

Suche in Sätzen einer bestimmten Länge

Beispiel 1: Erfragen von Sätzen einer bestimmte Länge

Mit der hier vorgestellten Suchanfrage können Sätze einer bestimmten Länge ausgewählt werden. Die Operatoren #BEG und #END sowie der Satz-Suchbebriff <s> werden hierzu wie folgt benötigt:

Selektieren von Sätzen bis zu einer Länge von 5 Wörtern

Q1a = #BEG(<s>) /5w,s0 #END(<s>)

Hierzu werden der Satzanfang #BEG(<s>) (= das 1. Wort im Satz) und das Satzende #END(<s>) (= das letzte Wort im Satz) in dem gewünschten Abstand von bis zu 5 Wörtern (/5w) und im selben Satz (s0) voneinander gewählt. Liegen Anfangs- und Endwort max. 5 Wörter auseinander, so auch die Satzlänge.

Selektieren von Sätzen mit einer Länge von genau 5 Wörtern

Q1b = #BEG(<s>) /5:5w,s0 #END(<s>)

Diese Suchanfrage liefert Sätze mit einer exakten Länge von 5 Wörtern zurück.

Selektieren von Sätzen mit einer Länge von über 5 Wörtern

Q1c = #BEG(<s>) /6:100w,s0 #END(<s>)

Diese Anfrage liefert Sätze mit einer min. Länge von 6 Wörtern zurück. Der Bereich 6:100w (min. 6 bis max. 100) ist ein Kunstgriff: da die Angabe eines Maximalwertes erforderlich ist, wird hier ein beliebige hoher und angemessener Wert eingesetzt.

Bemerkung zum Textbereich solcher Ergebnisse

Die auf diese Weise ausgewählten Sätze werden,wie man im KWIC sehen kann, intern als Ergebnisse von Wortpaaren verwaltet, deren Textbereich jeweils das erste und letzte Wort dieser Sätze sind. Ein Beispiel für einen solchen Textbereich wäre:

»Aufrecht gaben sie ihr Leben.«

Die Verteilung der auf diese Art ausgewählten Sätzen kann mit der Ergebnisansicht statistische KWIC-Auswertung angezeigt werden.

Beispiel 2: Suchen von Suchbegriffen in Sätzen bestimmter Länge

Soll nun in den in Beispiele 1 ausgewählten Sätzen gesucht werden, muss bedacht werden, dass nicht nur im roten Bereich gesucht wird (siehe Beispiel oben). Der Textbereich muss auf die ganzen Sätze ausgehnt werden. Dies wird beim Einsatz von Operator #IN(all) mit Option all gewährleistet.

Nehmen wir an, wir suchen nach der Kombination der beiden Wörter geben und Leben in Sätzen der Länge 10 oder weniger. Was passiert, wenn man den Textbereich aus Beispiel 1 unverändert belässt:

Suchanfrage mit dem falschen Textbereich

Q2a = (&geben /+s0 Leben) #IN (#BEG(<s>) /10w,s0 #END(<s>))

Die Suchanfrage mit #IN ohne Option ergibt nicht die erhofften Treffer, weil die Suchbegriffe &geben und Leben nur im roten Textbereich gesucht werden und nicht in den ganzen Sätzen.

Suchanfrage mit dem korrekten Textbereich

In der korrigierten Version wird #IN(all) eingesetzt. Die Option all hat die Wirkung, dass der Textbereich auf alle Wörter der Sätze erweitert wird:

»Aufrecht gaben sie ihr Leben.«

Die korrekte Suchanfrage lautet:

Q2b = (&geben /+s0 Leben) #IN(all) (#BEG(<s>) /10w,s0 #END(<s>))

und findet unter anderem folgenden Treffer (Beispiel):

»Aufrecht gaben sie ihr Leben.«

Beispiel 3: Suchen an bestimmter Position von Sätzen bestimmter Länge

Der Operator #IN() erlaubt uns dank weiterer Optionen, zusäztlich an bestimmten Position in den ausgewählten Sätzen zu recherchieren. Dazu ein Beispiel:

Suchen am Anfang von Sätzen, deren Länge maximal 10 ist

Q3 = (&geben /+s0 Leben) #IN(all,L) (#BEG(<s>) /10w,s0 #END(<s>))

Mit der Option L wird am Anfang (L = links) von Sätzen gesucht, wie das folgende Beispiel bezeugt:

»Gibt es ein Leben nach dem Match?«

Weitere Optionen für #IN() finden Sie unter der Beschreibung von .

Suchanfrage nach dem ersten Komma eines Satzes

Problemstellung

Gewünscht wird die Liste aller nach dem Satzanfang als erste auftretenden Kommata. Dort, wo ein Satz mehrere Kommata beinhaltet, soll also nur das erste zurückgeliefert werden.

Eine solche Suchanfrage würde man gerne mit Hilfe von regulären Ausdrücken formulieren. Da COSMAS II keine regulären Ausdrücke anbietet, muss die hier vorgeschlagene Formulierung gewählt werden, die sich auf Satzenden stützt.

Beispiel

"So ging es nicht um eine konstruktive Kritik, wie mit dem Erbe des parteiischen Journalismus' umzugehen sei, sondern allein um eine Rückschau aus der Sicht der Sieger."

In diesem Beispiel soll das Komma nach Kritik zurückgeliefert werden.

Vorgehen

Man sucht nach allen Satzenden, kombiniert sie mit der Gruppe der im selben Satz gefundenen Kommata und wählt aus jeder Gruppe das am weitesten links stehende aus.