[IDS-Logo] Online-Hilfe zu COSMAS II: Syntax der grafischen Suchanfragesprache - Druckversion

Syntax der grafischen Suchanfragesprache

Übersicht

Zum Ausdrucken ist auch eine vollständige Fassung der Suchanfragesprache verfügbar.


Suchoperatoren

Übersicht

COSMAS II kennt folgende Klassen von grafischen Suchoperatoren:

Diese Suchoperatoren sind graphische Komponenten, mit deren Hilfe Sie Ihre Suchanfragen aufbauen. Die einfachste Suchanfrage besteht aus einem einzigen Operator. Durch Kombination bauen Sie immer komplexere Suchanfragen auf.


Wortformoperatoren

Übersicht

deutsche Bezeichnung interne Bezeichnung Typ
WORT STR(<S>) <R>
WORT-UND ANDS(<S>) <R>
WORT-ODER ORS(<S>) <R>
LEM LEM(<S>) <R>

Erläuterung

Diese Operatoren vom Typ <R> (der allgemeinste Typ) können überall eingesetzt werden, wo ein anderer Operator ein Argument vom Typ <R> besitzt. Sie können auch allein stehen.

Beispiel

Operator WORT vom Typ <R> kann in die Argumente 1 und 3 von Operator ABSTAND eingesetzt werden.

Operator WORT

deutsche Bezeichnung interne Bezeichnung
WORT STR(<S>)

Allgemeine Beschreibung

Platzhalter

Berücksichtigung von Groß- und Kleinschreibung sowie von diakritischen Zeichen

Eingabe von Sonderzeichen

Angabe einer Textposition

Durch Angabe einer oder mehrerer Textposition(en) kann festgelegt werden, an welchen Stellen eines Satzes, Absatzes oder Textes das Wort gesucht oder nicht gesucht werden soll. Siehe Beispiele.

Beispiel 1

WORT(gehen)

Suche nach gehen, und je nachdem, wie die Suchoptionen eingestellt sind, auch nach Gehen, GEHEN, etc.

Beispiel 2

WORT(geh* ging gegangen)

Suche nach ging, gegangen und Zeichenketten, die mit geh beginnen.
Um eine vollständige Liste von Flexionsformen von gehen zu erhalten, benutzt man am besten den Lemmatisierungsoperator.

Beispiel 3

WORT(Eg: *arbeit*)

Suche nach großgeschriebenen Zeichenketten (man beachte die lokale Option Eg: für Erstes Zeichen groß), die die Teilkette arbeit enthalten. Siehe auch die Beispiele von Kombinationen von globalen Optionen mit Optionen, die in die Suchausdrücke geschrieben werden.

Beispiel 4

WORT(Schif++fahrt)

Suche nach Schiffahrt mit 0-2 Zeichen zwischen den beiden fs.
Liefert Textstellen mit: Schiffahrt, Schifffahrt, Schiffsfahrt, Schiff-fahrt, etc.

Beispiel 5

WORT(Schif+fahrt?*)

Suche nach Schiffahrt mit 0-1 Zeichen zwischen den beiden fs und mindestens 1 Zeichen (man beachte die Kombination ?*) am Ende von Schiffahrt.

Suchanfragen an bestimmten Textpositionen (neu)

Beispiel 1

WORT(wenn:pa)

Die spezifizierte Textposition :pa gibt an, dass das Wort wenn nur am Anfang von Absätzen gesucht werden soll.

Beispiel 2

WORT(aber:se)

Die spezifizierte Textposition :se gibt an, dass das Wort aber nur am Ende von Sätzen gesucht werden soll.

Beispiel 3

WORT(aber:-sa,-se)

Die spezifizierten Textpositionen :-sa,-se geben an, dass das Wort aber weder am Satzanfang noch am Satzende gesucht werden soll.

Suchanfragen mit dem rückwärtsgeschriebenen Schrägstrich \

Der rückwärtsgeschriebene Schrägstrich (engl. backslash) wird dazu benutzt, die Funktion von Zeichen wie den Platzhalteroperatoren *?+ aufzuheben. Soll er als Suchzeichen eingesetzt werden, muss seine Aufhebungsfunktion ihrerseits auch aufgehoben werden. Dies wird durch Verdoppelung des Schrägstrichs erreicht.

Beispiel 1

WORT(\?)

Suche nach dem Fragezeichen.

Beispiel 2

WORT(\\)

Suche nach dem rückwärtsgeschriebenen Schrägstrich.

Beispiel 3

WORT(\\\\*)

Suche nach einer Folge von mindestens zwei rückwärtsgeschriebenen Schrägstrichen.

Suchanfragen mit Sonderzeichen wie Satzzeichen und Apostrophe

Die Wortformanfragen werden intern über bereinigte Wortformen ausgeführt, d.h. solche Wortformen, die an beiden Enden von Sonderzeichen wie Satzzeichen und Apostrophen bereinigt wurden. Damit erzielt COSMAS II zusätzlich auch dort Treffer, wo die gesuchte Wortform im Text mit einer beliebigen Kombination dieser Zeichen auftritt.
Bei der Bereinigung werden die Sonderzeichen innerhalb der Wortformen hingegen nicht entfernt.

Beispiel

WORT(88)

Damit werden Textstellen wie 88, 88', '88, »88'«, »88'«!, etc. gefunden.

Suche nach Wortformen mit einem bestimmten Sonderzeichen

Suchen Sie gezielt nach Wortformen mit einem bestimmten Sonderzeichen, z.B. einem Wort mit Komma oder Punkt, sollten Sie das Sonderzeichen nicht mit der Wortform, sondern getrennt davon mit Hilfe des 0-Wortabstands wie in den nachfolgenden Beispielen angeben. Dabei können Sie leider nicht bestimmen, ob das Sonderzeichen vorne oder hinten vorkommt.

Beispiel 1

ABSTAND(WORT(88),w0,WORT('))

Suche nach 88 mit Apostroph. Gefundene Textstellen sind z.B. 88', '88, »88'«, »88'«!, etc.

Beispiel 2

ABSTAND(WORT(88),w0,WORT(,))

Suche nach 88 mit Komma. Gefundene Textstellen sind z.B. "... am Ende von 88, als..."

Beispiel 3

WORT(88!)

Formulierung falsch: liefert keine Treffer, weil das Sonderzeichen intern in der bereinigten Form nicht mehr vorkommt.

Beispiel 4

WORT(Rock'n'Roll)

Suche nach Rock'n'Roll. Formulierung korrekt, da innerhalb der bereinigten Wortformen die Sonderzeichen (hier die Apostrophe) nicht entfernt werden.

Beispiel 5

WORT(Dr.)

Suche nach der Abkürzung Dr.
Formulierung korrekt, da bei Abkürzungen der Punkt nicht bereinigt wird.

Beispiel 6: Suchanfrage mit Et-Zeichen '&'

WORT(H&amp;M-Kette)

Das Et-Zeichen wird als &amp; kodiert und muss als solches gesucht werden, um z.B. H&M-Kette zu finden.

Suche nach Wortformen ohne bestimmte Sonderzeichen

Suchen Sie gezielt nach Wortformen, die ohne ein bestimmtes Sonderzeichen auftreten, z.B. nach einem Wort ohne einem bestimmten Satzzeichen, sollten Sie dieses ähnlich wie in den obigen Beispielen mit dem ausschließenden 0-Wortabstand formulieren:

Beispiel

ABSTAND(WORT(88),%w0,WORT('))

Suche nach 88 ohne Apostroph. Davon ausgeschlossen sind Textstellen wie 88's, bei denen der Apostroph innerhalb des Wortes vorkommt.

Suche nach Wortformen mit Sonderzeichen außerhalb von ISOLat1

COSMAS II nutzt als Standard-Zeichensatz ISOLat1 (entspricht ISO8859-1). Zeichen, die sich nicht in diesem Zeichensatz befinden bzw. Zeichen, von denen man nicht genau weiss, wie man sie über die Tastatur eingeben soll, können als XML-Zeichen mit dezimalem UNICODE-Wert eingegeben werden.

Beispiel: Auslassungspunkte

Zeichen Symbol HTML-Zeichen UNICODE-Wert
dezimal
UNICODE-Wert
hexadezimal
Auslassungspunkte &hellip; #8230 #x2026

Beispiel: Suchanfrage nach dem Sonderzeichen allein

WORT(&#8230;)

Beispiel: Suchanfrage nach dem Sonderzeichen innerhalb eines Suchbegriffs

WORT(*&#8230;)
WORT(*&#8230;*)
WORT(&#8230;*)

Wie lautet die Kodierung meines Sonderzeichens

Der Dezimalwert vieler Sonderzeichen läßt sich z.B. in Wikipedia nachschlagen. Siehe zum Beispiel den Wikipedia-Eintrag für die Auslassungspunkte.

Wortliste

Der WORT-Operator verfügt außerdem über eine globale Wortformliste, die Sie aufrufen können, um sich die Wortformen im momentan aktiven Archiv präsentieren zu lassen und gegebenenfalls eine davon auszuwählen.

Operator WORT-UND

deutsche Bezeichnung interne Bezeichnung
WORT-UND ANDS(<S>)

Allgemeine Beschreibung

Beispiel

WORT-UND('anscheinend scheinbar')

Die Suchanfrage liefert die Treffer anscheinend und scheinbar für solche Texte, in denen sie beide vorkommen.

Operator WORT-ODER

deutsche Bezeichnung interne Bezeichnung
WORT-ODER ORS(<S>)

Allgemeine Beschreibung

Beispiel

WORT-ODER('anscheinend scheinbar')

Die Suchanfrage liefert die Treffer anscheinend oder scheinbar zurück.

Operator LEM

deutsche Bezeichnung interne Bezeichnung
LEM LEM(<S>)

Allgemeine Beschreibung

Berücksichtigung von Groß- und Kleinschreibung sowie von diakritischen Zeichen

Die Lemmatisierungsoptionen

Angabe einer Textposition

Durch Angabe einer oder mehrerer Textpositionen kann festgelegt werden, an welchen Stellen eines Satzes, Absatzes oder Textes die Wörter gesucht oder nicht gesucht werden soll. Siehe Beispiele.

Beispiele

Beispiel 1

LEM('gehen')

Suche nach den Flexionsformen von gehen

Beispiel 2

LEM('un-')

Suche nach Wortformen mit dem Präfix un-.
Die Lemmatisierungsoption Sonstige Wortbildungsformen muss eingeschaltet sein.

Beispiel 3

LEM('-heit')

Suche nach Wortformen mit dem Postfix -heit.
Die Lemmatisierungsoption Sonstige Wortbildungsformen muss eingeschaltet sein.

Beispiel 4

LEM('all-')

Suche nach Wortformen zum Stamm all, der als Grundform für alle Pronomen alle, allen, alles, etc. steht.
Die Lemmatisierungsoption Sonstige Wortbildungsformen sollte in diesem Fall nicht eingeschaltet werden.

Beispiel 5

LEM('d-')

Suche nach Wortformen zum Stamm d, der als Grundform für alle Artikel der, die, das, des, dessen, etc. steht.
Die Lemmatisierungsoption Sonstige Wortbildungsformen sollte in diesem Fall nicht eingeschaltet werden.

Beispiele mit Angabe von Textpositionen

Beispiel 1

LEM('sein:pa')

Suche nach den Flexionsformen von sein als erstes Wort eines Absatzes.

Beispiel 2

LEM('gehen:-sa,-se')

Suche nach den Flexionsformen von gehen innerhalb von Sätzen, d.h. weder als erstes noch als letzes Wort eines Satzes.


Annotationsoperatoren

Übersicht

deutsche Bezeichnung interne Bezeichnung Typ
MORPH MORPH(<M>) <R>

Erläuterung

Dieser Operator vom Typ <R> (der allgemeinste Typ) kann überall eingesetzt werden, wo ein anderer Operator ein Argument vom Typ <R> besitzt. Er kann auch allein stehen.

Beispiel

Operator MORPH vom Typ <R> kann in den Argumenten 1 und 3 von Operator ABSTAND eingesetzt werden.

Operator MORPH

deutsche Bezeichnung interne Bezeichnung
MORPH MORPH(<M>)

Allgemeine Beschreibung

  • Der Operator MORPH sucht nach Wörtern oder Wortgruppen, die mit im Argument <M> eingesetzten morpho-syntaktisch Annotation versehen sind.
  • Verfügbar ist dieser Operator nur in Archiven mit morpho-syntaktisch annotierten Korpora.
  • Ein Annotationsassistent unterstützt Sie bei der Wahl der Annotationswerte.
  • Eine Annotation kann auch von Hand editiert werden, um z.B. Werte einzusetzen, die der Assistent nicht erzeugen kann.
  • Eine Wortklasse kann negiert werden, indem man ihr von Hand ein "-" (Minuszeichen) voranstellt (siehe Beispiel 4).

Einsatz von MORPH

Operator MORPH kann gegenwärtig in den folgenden Archiven eingesetzt werden:

Archiv Tagset Assistent
COSMAS IIwin
Assistent
COSMAS IIweb
TAGGED-C CONNEXOR-Tagset nein ja
TAGGED-T STTS-Tagset nein ja
TAGGED-M MECOLB Minimal-Tagset ja ja

Beispiele

Beispiel 1

MORPH('VRB npax past -n')

Gesucht wird nach der als Relativpronomen im Dativ.

Um mehrere Bedingungen über ein gesuchtes Wort auszudrücken, werden die beiden Suchausdrücke, die Wortform der und die Annotation, mit dem Wortabstand Null w0 verknüpft.

Beispiel 2

ABSTAND(WORT('der'),w0,MORPH('PRN rel dat'))

Gesucht wird nach der als Relativpronomen im Dativ.

Um mehrere Bedingungen über ein gesuchtes Wort auszudrücken, werden die beiden Suchausdrücke, die Wortform der und die Annotation, mit dem Wortabstand Null w0 verknüpft.

Beispiel 3

ABSTAND(MORPH('NOU dat'),+w3,MORPH('PRN rel dat'))

Gesucht wird nach einem Substantiv im Dativ (MORPH('NOU dat')), dem in einem maximalen Abstand von 3 Wörtern ein Relativpronomen im Dativ (MORPH('PRN rel dat')) folgt.

Beispiel 4: Negieren einer Wortklasse

MORPH(-NOU)

Die Negation einer Wortklasse wird vom Assistenten nicht unterstützt, das Negationszeichen "-" muss von Hand eingetragen werden.

Ausdrücke mit negierten Wortklassen, im Gegensatz zu negierten Untermerkmalen, müssen wohlüberlegt eingesetzt werden, da sie eine temporäre Treffermenge großen Ausmaßes erzeugen; auf der einen Seite werden dadurch der Ressourcen des COSMAS II-Servers stark beansprucht, auf der anderen Seite wird die Ausführung der Suchanfrage verlangsamt.


Kombinationsoperatoren

Übersicht

deutsche Bezeichnung interne Bezeichnung Typ
ABSTAND X VON Y PROX(<R>,<P>,<R>) <R>
UND AND(<R>,<R>) <R>
ODER OR(<R>,<R>) <R>
X NICHT Y NOT(<R>,<R>) <R>
X IN Y IN(<R>,<I>,<R>) <R>
X UEBERLAPPT Y OV(<R>,<O>,<R>) <R>

Erläuterung

Die Operatoren vom Typ <R> (der allgemeinste Typ) können überall eingesetzt werden, wo ein anderer Operator ein Argument vom Typ <R> besitzt. Sie können auch allein stehen.

Beispiel

Operator ABSTAND vom Typ <R> kann in den Argumenten 1 und 3 von Operator IN eingesetzt werden.

Operator ABSTAND

deutsche Bezeichnung interne Bezeichnung
ABSTAND X VON Y PROX(<R>,<P>,<R>)

Allgemeine Beschreibung

  • Dieser Operator erlaubt, nach zwei Suchobjekten zu suchen, die in einem bestimmten Abstand voneinander
    • vorkommen (treffereinschließende Option),
    • nicht vorkommen (trefferausschließende Option).
  • Die Suchobjekte werden in die beiden Argumente des allgemeinen Typs <R> eingefügt, d.h. es kann sich dabei um Wortformen oder weitere Suchanfragen handeln.
  • Im mittleren Argument von Typ <P> wird folgendes eingegeben:
    • die Abstandsart (neu: Multi-Abstände erlaubt),
    • die fakultative Option für die minimale bzw. maximale Gruppenbildung und
    • die fakultative Option für die Trefferausschließung.
  • Dieser Operator funktioniert unterschiedlich, je nachdem, ob Sie sich mit einer Datenbank für geschriebene Sprache (Standardeinstellung) oder Diskurstranskripte verbunden haben.
  • Beachten Sie bitte besonders die typischen Fallen bei der Formulierung von Suchanfragen mit dem Abstandsoperator.

Beispiele für die Formulierung von Abständen

Siehe Beschreibung von Typ <P>.

Spezielle Suchanfragen mit dem Abstandsoperator

1. Suchanfragen am Satzende

Für die Satzgrenzen greift man auf Element-Operatoren zurück, um die Annotationen <s> im Text zu suchen. Die Suche nach beispielsweise dem Wort "Hürde" am Satzende sieht so aus:

ABSTAND('Hürde',w0,RECHTS(ELEM(S)))

Der 0-Wortabstand wird eingesetzt, weil das gesuchte Wort mit dem Wort am Satzende (das Ergebnis von RECHTS(ELEM(S))) zusammenfallen muss.

Sucht man hingegen nach einem Wort am Satzende in Kombination mit einem bestimmten Satzzeichen, so wird die Suche wie folgt formuliert:

ABSTAND('Hürde',w0,'.')

In diesem Fall wird der Wortabstand 0 verwendet, weil das gesuchte Wort und der Punkt in derselben Zeichenkette vorkommen.

2. Suchanfragen am Satzanfang

Analog zum Satzende wird auch hier die Annotation <s> im Text gesucht und eingesetzt:

ABSTAND(LINKS(ELEM(S)),w0,'und')

Sucht man nach einem Wort, das maximal 3 Wörter nach dem Satzanfang erscheint, so sieht die Suchanfrage so aus:

ABSTAND(LINKS(ELEM(S)),+w0:2,'Hürde')

Durch die Angabe des Bereichs +w0:2 wird Hürde an den Wortpositionen 1, 2 und 3 am Satzanfang gesucht.

Sucht man nach beispielsweise und maximal 3 Wörter nach Satzanfang und maximal 3 Wörter vor Satzende, so wird die Suchanfrage wie folgt formuliert:

ABSTAND(ABSTAND(LINKS(ELEM(S)),+w3,'und'),+w3,RECHTS(ELEM(S)))

was in Teilsuchen zerlegt besser verständlich wird:

Q1 = ABSTAND(LINKS(ELEM(S)),+w3,'und')
Q2 = RECHTS(ELEM(S))
Q3 = ABSTAND(Q1,+w3,Q2)

3. Suchanfragen mit Komma

Suchanfragen bestehend aus einer Kombination von einem Wort und einem Komma werden analog zu den Suchanfragen mit Satzzeichen formuliert.

ABSTAND('dass daß',w0,',')

4. Suchanfragen am Anfang eines Nebensatzes

Wenn sich der Nebensatz mit Hilfe des Kommas ausdrücken lässt, wird die Suchanfrage analog zu den Suchanfragen am Satzbeginn formuliert:

ABSTAND(',',+w1:1,'dass daß')

5. Suchanfragen unter Vermeidung eines Satzzeichens

Sucht man nach einem Wort, das nicht nach z.B. einem Komma geschrieben steht, wird der Ausschließungsoperator % im Wortabstand eingesetzt. Dabei geht man gedanklich zuerst von der positiven Formulierung aus, das Wort dass folgt auf ein Komma (Bsp. A1 und B1), und wandelt diese Suchanfrage in eine das Komma ausschließende Formulierung um, indem man % einsetzt.

Bei der Verwendung des Abstandsoperators mit % muss man zusätzlich beachten, dass nur der erste Operand des Operators zurückgeliefert wird:

a) problematischer Einsatz von %:

ABSTAND(',',+w1:1,'dass daß')

(A1): liefert alle Stellen zurück, bei denen ein Komma von dass oder daß gefolgt wird.

ABSTAND(',',%+w1:1,'dass daß')

(A2): Liefert alle Kommata zurück, auf die dass und daß nicht folgen. Das ist nicht das erwartete Ergebnis.

b) korrekter Einsatz von %:

ABSTAND('dass daß',-w1:1,',')

(B1): das gesuchte Wort steht hier als erster Operand, deshalb muss mit -w1:1 die Reihenfolge des Abstands umgedreht werden. Soweit liefern (B1) und (A1) die gleichen Treffer zurück.

ABSTAND('dass daß',%-w1:1,',')

(B2): liefert alle dass und daß zurück, die nicht nach einem Komma geschrieben stehen.

6. Gerichtete Abstandssuche innerhalb eines Satzes

Sucht man nach einer Kombination von 2 oder mehreren Wörtern innerhalb eines Satzes, wird der Satzabstand mittels s0 angegeben. Im Gegensatz zum Wortabstand kann hier auch ein gerichteter Satzabstand mittels eines + oder - angegeben werden:

ABSTAND('wird',+s0,'nicht')

Es werden die Stellen gefunden, in denen wird und nicht im selben Satz vorkommen und wird vor nicht steht.

7. Suchanfragen bei Verdoppelung von Wörtern oder Wortklassen

Sucht man Verdoppelungen von Wörtern (z.B. "... nicht nicht ...") oder Wortklassen (z.B. "... ADJ ADJ ..."), so muss darauf geachtet werden, dass der 0-Wortabstand ausgeschlossen wird. Ansonsten erhält man alle Treffer, bei denen nicht oder ADJ je einmal vorkommt, ebenfalls dazu (Grund: "nicht" /w0 "nicht" = "nicht").

Korrekte Formulierungen lauten:

ABSTAND('nicht',+w1:1,'nicht')
ABSTAND('nicht',+w1:5,'nicht')
ABSTAND(MORPH('ADJ'),+w1:1,MORPH('ADJ'))

Falsch hingegen ist:

ABSTAND('nicht',+w1,'nicht')

weil +w1 = +w0:1.

Soll ein Wort innerhalb eines Satzes doppelt vorkommen, aber nicht direkt hintereinander, so kann dies mit folgendem Trick formuliert werden:

ABSTAND('nicht',+w2:1000,s0,'nicht')

Die Angabe s0 sorgt dafür, dass beide Wörter innerhalb desselben Satzes gefunden werden. Die Angabe w2:1000 sorgt dafür, dass die beiden Wörter mindestens einen Wortabstand von 2 haben. Als maximaler Wortabstand wird ein beliebig großer Wert genommen (hier 1000), der sicherstellt, dass alle Sätze bis zu einer Länge von 1000 Wörtern durchsucht werden.

8. Wortabstand 0 und Überlappungen von Textbereichen

der 0-Wortabstand kann auch eingesetzt werden, um eine Überlappung zwischen mehreren Textbereichen zu erkennen. Dabei ist es nicht notwendig, dass die Textbereiche gemeinsame Wörter enthalten.

Typische Fallen

1. Abstand +w1:1 statt +w1

Bei der Suche nach einem Muster wie »es scheint, dass es« wird der Suchbegriff »es« zweimal verwendet. Falls Sie dieses Muster mit der folgenden Suchanfrage suchen, werden Sie falsche Ergebnisse erhalten:

falsch: ABSTAND(ABSTAND(ABSTAND('es',+w1,'scheint'),+w1,'dass'),+w1,'es')))

Obwohl COSMAS II korrekt gearbeitet hat, werden Sie unter den Ergebnissen folgende Textpassagen erhalten:

richtig: Doch es scheint, dass es sich der Vatikan...

falsch : und es scheint, dass dieser Wellenschlag ...

falsch : Ob als Produzent oder Musiker, es scheint, dass seine Leidenschaft...

Aus Ihrer Sicht sind die Passagen 2 und 3 falsch. Dass Sie von COSMAS II zurückgeliefert werden, liegt daran, dass die gewählte Formulierung zulässt, dass »es scheint, dass« mit »es« mit der Bedingung +w1 kombiniert wird, die gleichbedeutend ist wie +w0:1. Da »es« innerhalb von »es scheint, dass« erscheint, ist die Bedingung +w0 erfüllt.

Um diese Falle zu vermeiden, formulieren Sie das gesuchte Muster wie folgt unter Einsatz von +w1:1:

korrekt: ABSTAND(ABSTAND(ABSTAND('es',+w1,'scheint'),+w1,'dass'),+w1:1,'es')))

Achtung: auch wenn Sie für das gesuchte Muster die Wörter anders miteinander kombinieren, müssen Sie das erste »es« unter Einsatz von +w1:1 mit »scheint, dass es« kombinieren:

korrekt: ABSTAND('es',+w1:1,ABSTAND('scheint',+w1,ABSTAND('dass',+w1,'es')))

Operator ABSTAND

Beispiele für die geschriebene Sprache

Beispiel 1

ABSTAND('Lehrer',+w3,'Sparkurs')

Suche nach Lehrer links von Sparkurs, wobei der Abstand maximal drei Wörter sein darf.

Beispiel 2

ABSTAND('Lehrer',+w1:3,MORPH('NOU'))

Suche nach Lehrer links von einem Nomen, wobei der Abstand 1,2,3 Wörter sein kann Durch das Ausschließen des Null-Abstandes (w1:3) wird der identische Treffer Lehrer = NOU vermieden.

Beispiel 3

ABSTAND('Lehrer',s0,'Sparkurs')

Suche nach Lehrer und Sparkurs im selben Satz.

Beispiel 4

ABSTAND('Lehrer',s2,'Sparkurs')

Suche nach Lehrer und Sparkurs im einem Bereich von maximal 2 Sätzen, wobei sie auch im selben Satz vorkommen dürfen.

Beispiel 5

ABSTAND('Lehrer',s1:2,'Sparkurs')

Suche nach Lehrer und Sparkurs in einem Abstand von 1 oder 2 Sätzen, so dass sie nicht im selben Satz vorkommen.

Beispiel 6

ABSTAND('Lehrer',+w3 min,'Sparkurs')

Suche nach Lehrer und Sparkurs in einem Abstand von maximal 3 Wörtern und präsentiere die Treffer immer als ein Paar von Textstellen (fasse nicht mehrere Lehrer und Sparkurs zusammen zu einem Treffer).

Beispiel 7

ABSTAND('Lehrer',%w3,'Sparkurs')

Suche nach Lehrer und liefere diejenigen Textstellen zurück, um die herum in einem Abstand von maximal 3 Wörtern Sparkurs nicht gefunden wird.

Suche nach wenn, rechts gefolgt von aber in einem Abstand von maximal drei Wörtern.

[Bildschirmausschnitt]

Beispiel mit dem Segment- oder Zeitsegmentabstand

ABSTAND(Simultanpassage-Ende(),+s1,WORT('aber'))

Suche nach einem aber nach einer Simultanpassage (nach= im nächsten Zeitsegment), d.h. in der COSMAS II-Sprache: das Wort aber folgt auf das letzte Wort einer Simultanpassage in einem Abstand von einem Segment.

[Bildschirmausschnitt]

Beispiel mit dem Segment- oder Zeitsegmentabstand

ABSTAND(WORT('ja'),s0,WORT('aber'))

Suche nach einem ja und einem aber in einer Simultanpassage, d.h. in der COSMAS II-Sprache: die Wörter ja und aber befinden sich in einem 0-Segmentabstand voneinander bzw. im gleichen Zeitsegment.

[Bildschirmausschnitt]

Operator UND

deutsche Bezeichnung interne Bezeichnung
UND AND(<R>,<R>)

Allgemeine Beschreibung

  • Dieser Operator verknüpft zwei Teilsuchanfragen mit einem logischen UND.
  • Das Ergebnis ist ein Paar von Teilergebnissen (aus beiden Teilsuchanfragen), die beide im selben Text vorkommen.
  • Das Ergebnis fasst alle Treffer der Teilergebnisse zusammen.

Beispiel

UND('Leben','Tod')

Suche nach den Wortformen Leben und Tod im selben Text.

[Bildschirmausschnitt]

Operator ODER

deutsche Bezeichnung interne Bezeichnung
ODER OR(<R>,<R>)

Allgemeine Beschreibung

  • Dieser Operator verknüpft zwei Teilsuchanfragen mit einem logischen ODER.
  • Das Ergebnis besteht aus Treffern des ersten oder des zweiten Teilergebnisses.

Beispiel

ODER('Leben','Tod')

Suche nach den Wortformen Leben oder Tod.

Operator NICHT

deutsche Bezeichnung interne Bezeichnung
X NICHT Y NICHT(<R>,<R>)

Allgemeine Beschreibung

  • Der Operator X NICHT Y sucht nach Textobjekten X, die in Texten vorkommen, in denen Y nicht enhalten ist.
  • Das Ergebnis besteht aus allen Treffern X, die diese Bedingung erfüllen.

Beispiel

NICHT('anscheinend','scheinbar')

Suche nach der Wortform anscheinend in Texten, in denen scheinbar nicht vorkommt.

Operator IN

deutsche Bezeichnung interne Bezeichnung
X IN Y IN(<R>,<I>,<R>)

Allgemeine Beschreibung

  • Der Operator X IN Y prüft, ob die Treffer von X innerhalb der Treffer von Y vorkommen.
  • Das Ergebnis besteht aus allen X-Treffern, die diese Bedingung erfüllen.
  • X ist in Y, wenn es sich innerhalb von Y, also zwischen dem linken und dem rechten Wort (Endwörter inbegriffen) von Y befindet, siehe Fig. 1-4. Was innerhalb genau zu bedeuten hat, wird durch Argument <I> näherspezifiziert.
  • Y kann sowohl ein zusammenhängender Textbereich sein wie z.B. ein Titel (Fig. 1) oder ein unzusammenhängender Bereich (Fig. 2-4), der aus einer Teilanfrage entstanden ist.
  • Das Argument <I> kann zusätzlich benutzt werden, um anzugeben,
    • ob der Suchbereich alle Wörter oder nur die Treffer von Y umfasst (Bereichsoption, neu),
    • an welcher Position, innerhalb von Y, X auftreten soll (Positionsoption),
    • dass X nicht in Y auftreten soll (Ausschließungsoption),
    • ob die minimale oder maximale Gruppenbildung angewendet werden soll.
  • IN kann u.a. benutzt werden, um mehrere Bedingungen über eine gesuchte Textstelle zu formulieren.

Veranschaulichung

[Bildschirmausschnitt]

Beispiele

Beispiel 1: Suchen von Suchbegriffen an einer vorgegebenen Position innerhalb von Sätzen

Mit dem Argument <I> läßt sich angeben, ob der Suchbegriff X bezüglich des in Y formulierten Bereichs:

  • am Anfang Y vorkommt;
  • am Ende von Y vorkommt;
  • sich vom Anfang bis zum Ende von Y erstreckt;
  • weder am Anfang noch am Ende von Y vorkommt.

Siehe dazu die Beispiele von Suchanfragen an bestimmten Satzpositionen.

Beispiel 2: Verwendung von IN, um Wortformen und Wortklassen zu verbinden

Sucht man z.B. nach Würde als Nomen (um die Verbformen auszuschliessen), so kann man im Archiv TAGGED mit IN die gefundenen Wörter mit ihrer Wortklasse verbinden:

IN(LEM('Würde'),'FE',MORPH('NOU'))

Mit dem Argumentwert FE stellt man sicher, dass sich die Wortklasse genau auf dieses Wort bezieht und nicht auf eine größere Wortgruppe. Dasselbe Ergebnis erhält man übrigens auch mit dem Operator ABSTAND durch Anwendung des Null-Wortabstandes:

ABSTAND(LEM('Würde'),'w0',MORPH('NOU'))

Beispiel 3: Suchkontexte mit IN ausschliessen

Mit der ausschliessenden Option % von IN läßt sich ein Suchbegriff in einem unerwünschten Kontext ausschliessen.

IN(LEM('Würde'),'%',ELEM(HEAD))

Mit ELEM(HEAD) sind jegliche Arten von Überschriften in den IDS-Korpora gekennzeichnet. Damit lassen sich die Treffer von Würde in den Überschriften ausschliessen.


Operatoren auf Elementebene (SGML-Annotationen)

Übersicht

deutsche Bezeichnung interne Bezeichnung Typ
ELEM ELEM(<E>,<T>) <R>
ATT ATT(<A>,<X>,<V>) <T>
ATT-UND AAND(<T>,<T>) <T>
ATT-ODER AOR(<T>,<T>) <T>

Erläuterungen zu den Annotationen

Mit dieser Operatorengruppe können SGML- bzw. XML-Annotationen, auch Textauszeichnungen oder englisch tags genannt, recherchiert werden. Das Ergebnis einer solchen Recherche ist der Text, der von der Annotation umfasst bzw. durch sie referenziert wird.

Textauszeichnungen haben in Anlehnung an den SGML- bzw. XML-Formalismus drei Komponenten, die Element, Attribut und Wert genannt werden und im folgenden allgemeinen Format auftreten:

<element attribut="Wert" attribut="..." ...>

Beispiele

<s> steht für Sätze.

<p> steht für Absätze.

<head type="main"> zeichnet beispielsweise eine Hauptüberschrift aus.

Erläuterungen zum Operatorentyp

Operator ELEM ist vom allgemeinen Typ <R> und kann alleine oder überall eingesetzt werden, wo ein anderer Operator ein Argument vom Typ <R> besitzt.

Die restlichen Operatoren sind vom Typ <T>, welcher sowohl mit <T> als auch <R> kompatibel ist. Sie können deshalb entweder alleine oder überall eingesetzt werden, wo ein Operator ein Argument vom Typ <T> oder <R> besitzt.

Beispiele

Operator ELEM kann z.B. in den Argumenten 1 und 3 von Operator ABSTAND eingesetzt werden.

Operator ATT kann z.B. in Argument 2 von Operator ELEM oder allein eingesetzt werden.


Operatoren, die den Textbereich der Treffer verändern

Übersicht

deutsche Bezeichnung interne Bezeichnung Typ
LINKS BEG(<R>) <R>
RECHTS END(<R>) <R>
INKLUSIVE ALL(<R>) <R>
EXKLUSIVE NHIT(<R>) <R>
BED COND( <R>, <B>) <R>

Erläuterung

Diese Operatoren vom Typ <R> (der allgemeinste Typ) können entweder alleine oder überall eingesetzt werden, wo ein anderer Operator ein Argument vom Typ <R> besitzt.

Beispiel

Operator LINKS vom Typ <R> kann in die Argumente 1 und 3 von Operator ABSTAND eingesetzt werden.

Operator LINKS

deutsche Bezeichnung interne Bezeichnung
LINKS BEG(<R>)

Allgemeine Beschreibung

  • Der Operator LINKS reduziert einen Mehrworttreffer auf das am weitesten links stehende (bzw. erste) Wort.

Beispiel

ELEM(S)

Textstelle: »JEMEN freigelassene Geiseln kehren heim«

Die vom Operator ELEM zurückgelieferte Textstelle ist ein ganzer Satz.

LINKS(ELEM(S))

Textstelle: »JEMEN freigelassene Geiseln kehren heim«

Durch den Operator LINKS erhält man nun das erste bzw. linke Wort des Satzes.

Operator RECHTS

deutsche Bezeichnung interne Bezeichnung
RECHTS END(<R>)

Allgemeine Beschreibung

  • Der Operator RECHTS reduziert einen Mehrworttreffer auf das am weitesten rechts stehende (bzw. letzte) Wort.

Dieser Operator ist besonders dann von Interesse, wenn nur dieses rechte Wort in einer komplexe Suchanfrage verwendet werden soll.

Beispiele

Beispiel 1: Auswahl des Satzendes

RECHTS(ELEM(S))

Dieser Ausdruck erfragt von jedem Satz das letzte Wort, also das Satzende.

Beispiel 2: Auswahl des rechten Wortes eines Abstandsergebnisses

RECHTS(ABSTAND(LEM('gehen'),s0,'drauf'))

Das Ergebnis der Abstandssuche wird auf das in jedem Treffer rechts stehende Wort reduziert. Da die Abstandssuche ungerichtet ist, kann es sowohl eine Flexionsform von gehen als auch drauf sein.

Operator INKLUSIVE

deutsche Bezeichnung interne Bezeichnung
INKLUSIVE ALL(<R>)

Allgemeine Beschreibung

  • Der Operator INKLUSIVE wird hauptsächlich auf Ergebnisse angewandt, die einen nicht zusammenhängenden Textbereich enthalten.
  • INKLUSIVE fasst alle Wörter zwischen den Endwörtern eines Ergebnisses zu einem zusammenhängenden Bereich zusammen.

Dieser Operator findet dann Anwendung, wenn der gesamte Textbereich eines Ergebnisses und nicht nur die gefundenen Suchbegriffe den Suchbereich einer weiteren Suchanfrage bilden sollen.

Beispiel

ABSTAND('Kritik',w3,'Regierung')

Typischerweise entsteht bei einer Abstandssuche ein Ergebnis, bei dem die gefundenen Wörter (Treffer) einen nichtzusammenhängenden Bereich bilden, wie z.B. in der folgenden Textstelle:

Textstelle: »... Kollegen. Kritik an der Regierung in Sanna inzwischen ...«

INKLUSIVE(ABSTAND('Kritik',w3,'Regierung'))

Durch die Anwendung von INKLUSIVE auf das Ergebnis der obigen Abstandssuche ensteht eine zusammenhängende Textstelle:

Textstelle: »... Kollegen. Kritik an der Regierung in Sanna inzwischen...«.

Operator EXKLUSIVE

deutsche Bezeichnung interne Bezeichnung
EXKLUSIVE NHIT(<R>)

Allgemeine Beschreibung

  • Besteht ein Treffer aus nichtzusammenhängenden Textstellen, so liefert EXKLUSIVE alle nichtgesuchten Wörter zwischen den Endwörtern des Ergebnisses.
  • Besteht hingegen ein Treffer aus einer zusammenhängenden Textstelle (gibt es also keine Lücken), liefert EXKLUSIVE nichts zurück.

Dieser Operator findet in denjenigen Fällen Anwendung, wo nicht die gesuchten Wörter selber, sondern die Wörter dazwischen den Suchbereich für eine weitere Suchanfrage bilden.

Beispiel

ABSTAND('Kritik',w3,'Regierung')

Textstelle: »... Kollegen. Kritik an der Regierung in Sanna inzwischen ...«.

Der vom Abstandsoperator zurückgelieferte Treffer ist eine nichtzusammenhängende Textstelle bestehend aus den Suchbegriffen Kritik und Regierung.

EXKLUSIVE(ABSTAND('Kritik',w3,'Regierung'))

Durch Anwendung von EXCLUSIVE wird der Textbereich zwischen den Suchbegriffen gebildet:

Textstelle: »... Kollegen. Kritik an der Regierung in Sanna inzwischen...«.


Argumenttypen und Argumente

Übersicht

Die Suchoperatoren haben in der Regel ein oder mehrere Argumente, die ausgefüllt werden müssen. Das sind die variablen Teile der Suchanfrage. Einige erweiterte Operatoren haben hingegen kein Argument.
Je nach Operator besitzt ein Argument eine spezielle Bedeutung (Semantik), die durch seinen Argumenttyp erkenntlich ist. Der Argumenttyp gibt im wesentlichen an, welche Klasse von Operatoren oder editierbaren Werten erwartet wird.

Typ Bezeichnung Erwartete Werte*
<A> Argument von Operator ATT Attributname
<B> Argument von Operator BED Textposition
<E> Argument von Operator ELEM Element- bzw. Annotationsname
<I> Argument von Operator X IN Y Bereichsoption, Positionsoption, ausschließende Option, Gruppenbildungsoption, -
<M> Argument von Operator MORPH Annotationsassistent stellt die Werte zur Auswahl
<O> Argument von Operator X UEBERLAPPT Y Bereichsoption, ausschließende Option, Gruppenbildungsoption, -
<P> Argument von Operator ABSTAND X VON Y Abstandstyp, Min-/Max-Option, trefferausschließende Option
Neu: Multi-Abstände möglich
<R>  -- alle Operatoren und Suchwörter (enthält auch <S>)
<S> Suchwort ein oder mehrere Suchbegriffe
<T>  -- Operatoren ATT, ATT-UND, ATT-ODER, -
<V> Argument von Operator ATT ein oder mehrere Suchbegriffe, -
<X> Argument von Operator ATT =, <> (ungleich), -

* '-' bedeutet, dass ein Wert fakultativ ist.

Argument <A>

Das erste Argument des Attribut-Operators ATT dient der Angabe eines Attributnamens. Anders als bei Attributwerten kann nur ein Name angegeben werden. Attributnamen werden groß geschrieben.

Beispiel

ATT(TYPE,...)

bezeichnet den Attributnamen in der folgenden Annotation:

<head type="top">

Argument <B>

Der Argumenttyp <B> bezeichnet das Feld von Operator BED, in das die gewünschte(n) Textposition(en) eingetragen werden.

Siehe hierzu die Liste der spezifizierbaren Textpositionen.

Argument <E>

Das erste Argument des Element-Operators ELEM dient der Angabe eines Element- bzw. Annotationsnamens. Anders als bei Attributwerten kann nur ein Name angegeben werden. Elementnamen werden groß geschrieben.

Beispiel

ELEM(HEAD,'')

bezeichnet die folgende Annotation:

<head ... >

Argument <I>

Das Argument des Kombinationsoperators X IN Y setzt sich zusammen aus einer fakultativen

  • Bereichsoption (neu),
  • Positionsoption,
  • Ausschließungsoption oder
  • Gruppenbildungsoption.

Falls mehrere Optionen vorkommen, müssen die Werte auseinandergeschrieben oder mit Kommata getrennt werden. Die Reihenfolge der Optionen ist frei.

Beispiele für die Syntax der Optionen

' ' keine Optionsangabe ist erlaubt.
'L' Positionsoption für linksbündig
'% L' Ausschließungsoption mit Positionsoption
'FE,ALL,%,MIN' Positions-, Bereichs-, Ausschließungs- und Gruppenbildungsoption

Werte der Bereichsoption

Wert Bedeutung
ALL der Suchbereich von X in Y erstreckt sich vom ersten bis zum letzen Wort von Y (ob Treffer oder nicht)
HIT der Suchbereich von X in Y umfasst nur die Treffer von Y.
dies ist der Default.

Werte der Positionsoption

Wert Bedeutung
L Linkes Wort von X und Y stimmen überein,
rechtes Wort von X und Y stimmen nicht überein.
R Rechtes Wort von X und Y stimmen überein,
linkes Wort von X und Y stimmen nicht überein.
F Linkes und rechtes Wort von X und Y stimmen überein.
Diese Option kann durch FE und FI verfeinert werden
FE Unterspezifikation von F:
Alle Wörter von X und Y stimmen überein, X und Y sind also völlig identisch.
FI Unterspezifikation von F:
Linkes und rechtes Wort von X und Y stimmen überein,
aber nicht alle anderen Wörter
N Linkes und rechtes Wort von X und Y stimmen nicht überein
- keine Angabe
  • Die Optionen L, R, F und N schliessen sich gegenseitig aus bzw. ergänzen sich zu demselben Ergebnis wie wenn man keine Option vorgibt.

Für das triviale Beispiel

IN('wegen','F','wegen'))

erhält man Ergebnisse für die Option F und die Unteroption FE, aber weder für L (weil "das rechte Wort von X und Y übereinstimmt"), noch für R (weil "das linke Wort von X und Y übereinstimmt") und N.

Die Optionen FE und FI schliessen sich gegenseitig aus bzw. ergänzen sich zum selben Ergebnis wie die Option F.

Werte der Ausschließungsoption

Wert Bedeutung
% Die Ausschließungsoption schließt die Treffer von X aus, die gemäß den vorgegebenen Optionen in Y sind.

Durch die Ausschließungsoption werden alle Treffer X in zwei Gruppen verteilt: diejenigen, die X IN Y erfüllen und diejenigen, die X IN(%) Y erfüllen.

Die Werte der Gruppenbildungsoption

Wert Bedeutung
MIN sorgt dafür, dass die resultierenden Treffer X nicht zu Gruppen zusammengefaßt werden.
Dies ist die Standardeinstellung.
MAX sorgt dafür, dass die resultierenden Treffer von X zu Gruppen zusammengefaßt werden.

Argument <M>

Der Argumenttyp <M> bezeichnet ein Feld für die Eingabe einer morpho-syntaktischen Annotation, d.h. einer Wortklasse mit fakultativen Untermerkmalen, aus dem MECOLB Minimal Tagset. <M> ist das Eingabefeld des Operators MORPH.

In den grafischen Benutzeroberflächen von COSMAS II wird zum Ausfüllen dieses Argumenttyps der MORPH-Annotationsassistent aufgerufen.

Das Feld <M> kann nur 1 Wortklasse bzw. Annotation aufnehmen. Alternative Wortklassen müssen mit dem Operator ODER formuliert werden.

Argument <O>

Das Argument des Kombinationsoperators X UEBERLAPPT Y setzt sich zusammen aus einer

  • Bereichsoption,
  • einer fakultativen ausschließenden Option und
  • einer fakultativen Gruppenbildungsoption.

Falls mehrere Optionen vorkommen, müssen sie auseinandergeschrieben werden.

Werte der Bereichsoption

Werte kurz Bedeutung
F "full overlay" X und Y beginnen und enden mit dem gleichen Wort. Dazwischen müssen die Treffer nicht identisch sein.
FE "exact full overlay" Unterspezifikation von F:
X und Y sind identisch, d.h. alle Treffer von X kommen in Y vor und umgekehrt.
Wenn FE gilt, gilt auch F.
FE ist komplementär zu FI.
FI "inexact full overlay" Unterspezifikation von F:
X und Y beginnen und enden identisch, sind dazwischen aber nicht identisch, d.h. 1 oder mehrere Treffer von X kommt in Y nicht vor oder umgekehrt.
Wenn FI gilt, gilt auch F.
FI ist komplementär zu FE.
L "left overlay" entweder beginnt X links von Y oder, wenn X und Y mit dem gleichen Wort beginnen, endet X links von Y.
R "right overlay" entweder endet X rechts von Y oder, wenn X und Y mit dem gleichen Wort enden, beginnt X rechts von Y.
X "residual case" eine Überlappung, die in keine der obigen Fälle fällt.
Vorsicht: X ist nicht glieichzusetzen mit: unspezifizierte Überlappung (don't care); X kann eingesetzt werden, wenn F, L und R ausgeschlossen werden sollen.
- "don't care" = leeres Feld: keine Angabe: beliebige Art der Überlappung möglich.

Ausschliessende Option

Mit der ausschliessenden Option % schliessen Sie die Treffer in X aus, die die angegebene Bereichsoption erfüllen bzw. erhalten Sie nur diejenigen Kombinationen aus X und Y, die die angegebene Bereichsoption nicht erfüllen.

Gruppenbildungsoption

Die Werte Min oder Max für die Gruppenbildung, wie sie von den anderen Operatoren bekannt sind, können eingesetzt werden.

Beispiele

UEBERLAPPT(X,'F',Y) sucht nach Überlappungen von X und Y, die linksbündig in Y vorkommen.

UEBERLAPPT(X,'L %',Y) sucht nach Treffern von X, die nicht linksbündig in Y vorkommen.

Argument <P>

Argument des Kombinationsoperators ABSTAND X VON Y

Definition des Abstandes

Der Abstand wird definiert durch minimal zwei, maximal fünf Angaben:

Abstandsangabe = (%)(R)(Wmin:)WmaxT(G), wobei

 % Ausschließungsoption
 R Abstandsrichtung
 Wmin minimaler Abstandswert
 Wmax maximaler Abstandswert (obligatorisch)
 T Abstandstyp (obligatorisch)
 G Gruppenbildung

und die in Klammern gesetzten Angaben fakultativ sind.
Beim grafischen Abstandsoperator können die Angaben in beliebiger Reihenfolge aufgelistet werden. Einzig Wmin:Wmax muss hintereinander stehen.

Bei Multi-Abständen (neu) kann die Sequenz (Wmin:)WmaxT für jeden Abstandstyp wiederholt und mit Kommata voneinander getrennt werden.

Trefferausschließung mit Ausschließungsoption

 %  A %3w B bewirkt, dass als Treffer nur As zurückgeliefert werden, bei denen in einer Umgebung von drei Wörtern kein B steht.

Abstandsrichtung

keine Angabe Die Suchobjekte können in beliebiger Reihenfolge auftreten.
Der Abstand ist maximal der vom Wert W angegebene. Der 0-Abstand ist inbegriffen.
+ Suchobjekt 1 tritt links von Suchobjekt 2 auf.

Abstandswert

Wmin Minimaler Abstand zwischen den beiden Suchbegriffen.
Ein numerischer Wert im Bereich 0,1,2,3 etc.
Wmax Maximaler Abstand zwischen den beiden Suchbegriffen.
Ein numerischer Wert im Bereich 0,1,2,3 etc.

Abstandstyp

- für geschriebene Sprache

w oder W Wortabstand
s oder S Satzabstand
p oder P Paragraph- oder Absatzabstand

Multi-Abstände (neu): Es kann gleichzeitig zu allen drei Abstandstypen je eine Angabe gemacht werden, die durch ein Komma zu trennen sind. Siehe hierzu die Beispiele.

- für Diskurstranskripte

f oder F Wortfragmentabstand
s oder S (Zeit)segmentabstand
w oder W Wortabstand

Minimale oder maximale Gruppenbildung der Treffer

max maximale Gruppenbildung
der Treffer
Default-Wert, wenn keine Angabe.
Möglichst viele Treffer werden zu einer Gruppe zusammengefasst.
min minimale Gruppenbildung
der Treffer
Treffer werden paarweise präsentiert,
sie werden nicht zusammengefasst.
Dies ergibt in der Regel mehr Treffer als in der maximalen Gruppenbildung.

Beispiele zur Syntax des Abstandes

  w3   ungerichteter Abstand von 0,1,2,3 Wörtern
  1:w3   ungerichteter Abstand von 1,2,3 Wörtern (0-Abstand ausgeschlossen)
  w0   0-Wortabstand
Angabe eines + hat beim 0-Wortabstand keine Wirkung
  s0   0-Satzabstand
Angabe eines + wird, wie beim 0-Absatzabstand, berücksichtigt
  3:w3   ungerichteter Abstand von exakt drei Wörtern
  +w3   gerichteter Abstand von 0,1,2,3 Wörtern
  +1:w3   gerichteter Abstand von 1,2,3 Wörtern
  +3:w3   gerichteter Abstand von exakt drei Wörtern
  w3 min   Wortabstand mit Angabe von minimaler Gruppenbildung
  %w3   ausschließender Wortabstand

Beispiele zur Syntax von Multi-Abständen (neu)

  +w3,s0   Multi-Abstände: max. 3 Wörter innerhalb 1 Satzes
  w3:10,s1,p0   Multi-Abstände: min. 3 und max. 10 Wörter innerhalb von 2 Sätzen innerhalb 1 Absatzes.

Argument <R>

Der Argumenttyp <R> ist der allgemeinste Argumenttyp und nimmt alle Operatoren auf, die ebenfalls vom Typ <R> sind.

<R> schließt außerdem <S> ein, d.h. in jedem Argument vom Typ <R> kann auch ein Suchbegriff (Typ <S>) eingesetzt werden.

Beispiel 1

ELEM(...)
ABSTAND(<R>,<P>,<R>)
ABSTAND(ELEM,<P>,<R>)

Operator ELEM ist vom Typ <R> und kann deshalb in das 1. und das 3. Argument von Operator ABSTAND eingesetzt werden.

Beispiel 2

Haus*ung
ABSTAND(<R>,<P>,<R>)
ABSTAND(Haus*ung,<P>,<R>)

Der Suchbegriff Haus*ung (vom Typ <S>) kann sowohl in das 1. als auch in das 3. Argument von ABSTAND eingesetzt werden.

Argument <S>

Der Argumenttyp <S> bezeichnet ein Feld zur Eingabe eines oder mehrerer Suchbegriffe.

Der Typ <S> ist außerdem in <R> enthalten, d.h. es können auch Suchbegriffe direkt in ein Feld vom Typ <R> eingetragen werden.

Argument <T>

Der Argumenttyp <T> dient der Aufnahme der Operatoren

zur Spezifizierung der Attribute und Attributwerte einer Annotation.

Beispiel 1: Anwendung mit ATT

ELEM('HEAD',<T>)
ELEM('HEAD',ATT(...))

führt den Einsatz von ATT im Argument vom Typ <T> von ELEM vor.

Beispiel 2: Anwendung mit ATT-UND

ELEM('HEAD',<T>)
ELEM('HEAD',ATT-UND(<T>,<T>))
ELEM('HEAD',ATT-UND(ATT(...),ATT(...)))

führt den Einsatz von ATT-UND im Argument vom Typ <T> von ELEM vor, gefolgt vom Einsatz der Operatoren ATT in die beiden Argumente vom Typ <T> von ATT-UND.

Argument <V>

Das dritte Argument des Attribut-Operators ATT dient der Angabe ein oder mehrerer Attributwerte.

Beispiel 1

ATT(TYPE,'=','top')

gibt an, dass das Attribut TYPE den Wert top haben muss.

Beispiel 2

ATT(TYPE,'<>','top main')

gibt an, dass das Attribut TYPE die Werte top und main nicht haben darf.

Argument <X>

Das zweite Argument des Attribut-Operators ATT dient der Angabe eines Verknüpfungsoperators zwischen Attributnamen und dem/den -wert/-werten. Mögliche Werte sind:

  • = für gleich und
  • <> für ungleich

Beispiel 1

ATT(TYPE,'=','top')

gibt an, dass das Attribut TYPE den Wert top haben muss.

Beispiel 2

ATT(TYPE,'<>','top')

gibt an, dass das Attribut TYPE den Wert top nicht haben darf.


Groß-/Kleinschreibung und diakritische Zeichen

Übersicht

Ob die Groß-/Kleinschreibung und die diakritischen Zeichen in einer Suchanfrage beachtet oder ignoriert werden, hängt davon ab, wie Sie die Optionen in

eingestellt haben. Die Optionen in den allgemeinen Einstellungen gelten global für alle Ausdrücke einer Suchanfrage. Um die Optionen für einzelne Suchausdrücke festzulegen, müssen Sie sie mit der hier beschriebenen Syntax in den Ausdruck mitangeben. Die Optionen werden in diesem Fall mit einem Doppelpunkt versehen (um sie von dem eigentlichen Suchausdruck zu unterscheiden) und an den Anfang des Ausdrucks geschrieben. Die in einem Suchausdruck angegebene Option hat Vorrang auf die entsprechende globale Einstellung.

Es folgt die Tabelle mit der Optionensyntax (deutsch und englisch) für den Gebrauch in Suchausdrücken (z.B. bei Wortformen und Attributwerten in SGML-Annotationen). Wie bei den allgemeinen Einstellungen gilt, dass die A-Option und die E- und R-Optionen sich gegenseitig ausschließen.

  anwendbar auf Beschreibung Option (dt) Option (engl)
A alle Zeichen Groß-/Kleinschreibung & diakritische Zeichen beachten
Groß-/Kleinschreibung & diakritische Zeichen ignorieren
:Ab
:Ai
:As
:Ai
         
E erstes Zeichen Groß-/Kleinschreibung beachten
Groß-/Kleinschreibung ignorieren
Großschreibung erzwingen
Kleinschreibung erzwingen
:Eb
:Ei
:Eg
:Ek
:Fs
:Fi
:Fu
:Fl
R restlichen Zeichen Groß-/Kleinschreibung beachten
Groß-/Kleinschreibung ignorieren
Großschreibung erzwingen
Kleinschreibung erzwingen
:Rb
:Ri
:Rg
:Rk
:Os
:Oi
:Ou
:Ol
         
D alle Zeichen diakritische Zeichen beachten
diakritische Zeichen ignorieren
:Db
:Di
:Ds
:Di

Kombinationen:

Folgende Optionen lassen sich miteinander kombinieren:

  • A mit D
  • E und R mit D
  • E mit R

Beispiele für Kombinationen

Groß-/Kleinschreibung und diakritische Zeichen

Beispiele für Kombinationen

In den nachfolgenden Beispielen wird gezeigt, wie Sie aus einer Kombination von globalen Einstellungen und Optionen im Suchausdruck Einfluss auf die Groß-/Kleinschreibung und die diakritischen Zeichen während einer Recherche nehmen können. Die Option A wurde der Einfachheit halber weggelassen. (igno = ignorieren, bea = beachten).

globale Einstellungen Suchbegriff gesuchte Wortformen
E R D    
igno igno igno der
Der
*ung
:Eg *ung
:Ek *ung
*UNG
:Ag *UNG
Der der
Der der
z.B. Teilung TEILung teilung etc.
z.B. Teilung TEILung etc., aber nicht teilung
z.B. teilung etc., aber nicht Teilung TEILung
z.B. TEILUNG teilUNG teilung etc.
z.B. TEILUNG etc., aber nicht teilUNG teilung
igno igno igno
igno
igno
bea
ete
été
wurde
wurde
ete été Eté Été ÉTÉ ETE (franz.: Sommer)
ete été Eté Été ÉTÉ ETE
wurde würde Wurde Würde WURDE WÜRDE etc.
wurde Wurde WURDE etc.
bea igno igno der
Der
:Ei Der
der
Der
Der der

Gruppenbildung der Treffer

Übersicht

Einige Suchoperatoren (ABSTAND, IN und UEBERLAPPT) bieten die Möglichkeit, die gefundenen Treffer zu möglichst großen Gruppen (= maximale Gruppenbildung) oder nicht zu Gruppen zusammenzufassen (= minimale Gruppenbildung).

Bei der maximalen Gruppenbildung reduziert sich in der Regel die Anzahl der KWIC-Zeilen, weil Treffer mehrerer KWIC-Zeilen zu einer KWIC-Zeile zusammengefasst werden, wenn sie die Bedingungen des Operators zusammen erfüllen (siehe das Beispiel unten). Dadurch wird die Darstellung von Belegen übersichtlicher.

Bei der minimalen Gruppenbildung ist somit in der Regel die Anzahl der KWIC-Zeilen höher. Für die weitere Verarbeitung eines solchen Ergebnisses in einer komplexen Suchanfrage ist das manchmal notwendig, um an das korrekte Endergebnis zu kommen.

Mögliche Werte

  • Max: möglichst viele Treffer werden zu einer Gruppe bzw. Fundstelle bzw. KWIC-Zeile zusammengefasst.
  • Min: Treffer werden nicht zusammengefasst.

Die Groß- und Kleinschreibung spielt bei dieser Option keine Rolle.

Beispiel: Abstandssuche zweier Suchbegriffe

Die Gruppenbildung soll anhand einer Abstandssuche, bei der auf und geht im Kontext eines Satzes gesucht werden, dargestellt werden.

Bei maximaler Gruppenbildung entsteht für die nachfolgende Textpassage ein einziger Beleg1:

»Er stand auf -- merkte im Aufstehen noch, daß Professor Rineharts Stuhl und Schreibtischplatte klebrig waren --, ging hinüber zu Sabine, die am Tisch saß und auf die Tischplatte starrte.«

Bei minimaler Gruppenbildung entstehen dagegen 2 Belege:

Treffer 1:

»Er stand auf -- merkte im Aufstehen noch, daß Professor Rineharts Stuhl und Schreibtischplatte klebrig waren --, ging hinüber zu Sabine, die am Tisch saß und auf die Tischplatte starrte.«

Treffer 2:

»Er stand auf -- merkte im Aufstehen noch, daß Professor Rineharts Stuhl und Schreibtischplatte klebrig waren --, ging hinüber zu Sabine, die am Tisch saß und auf die Tischplatte starrte.«


1 aus: Walser, Martin: Brandung. Frankfurt a.M.: Suhrkamp Verlag, 1985, 319 S. [S. 87]


Erweiterte Suchoperatoren

Übersicht

Gehe zur Beschreibung der erweiterten Suchoperatoren für die

Bildung von virtuellen Korpora

Bezeichnung  Beschreibung
KORPUSSIGLE Auswahl von Texten nach ihrer Korpussigle
DATIERUNG Auswahl von Texten nach dem Entstehungsdatum

Suche in Diskurstranskripten

Die allgemeinen Suchoperatoren wurden um solche erweiterte Suchoperatoren ergänzt, die auf das Recherchieren der in den Diskurstranskripten vorhandenen Annotationen spezialisiert sind. In der Benutzeroberfläche von COSMAS II sind sie mit einem + gekennzeichnet. Diese Operatoren werden hier vorgestellt.

Beschreibung der erweiterten Suchoperatoren für

Wortformen

Bezeichnung  Beschreibung Syntax  Beispiel
Wort sucht nach Wortformen Wort(<S>) Wort('nich nicht nee')
Wort('verlore*')

Prosodie

Bezeichnung  Beschreibung Syntax  Beispiel
Dehnung sucht nach Wortformen, die eine gedehnte Silbe enthalten ohne Argument -
Dehnung lang sucht nach Wortformen, die eine lang gedehnte Silbe enthalten ohne Argument -
Betonung sucht nach Wortformen, die eine betonte Silbe enthalten ohne Argument -
Intonation sucht nach Wortformen, die eine bestimmte Intonation haben Intonation(<V>)
Argument <V> kann sein:
STEIGEND, FALLEND, SCHWEBEND
Intonation( STEIGEND )
Tempo sucht nach der ersten oder letzten Wortform einer Passage, deren Tempo verschieden vom Kontext ist.

SCHNELLER: erstes W., das schneller ist.
SCHNELLER2: letztes W., das schneller ist.
LANGSAMER: erstes W., das langsamer ist.
LANGSAMER2: letztes W., das langsamer ist.

Tempo(<V>)

Argument <V> kann sein:

SCHNELLER, SCHNELLER2, LANGSAMER, LANGSAMER2

Tempo( SCHNELLER )
Dynamik sucht nach der ersten oder letzten Wortform einer Passage, deren Dynamik verschieden vom Kontext ist.

LAUTER: erstes W., das lauter ist.
LAUTER2: letztes W., das lauter ist.
LEISER: erstes W., das leiser ist.
LEISER2: letztes W., das leiser ist.

Dynamik(<V>)

Argument <V> kann sein:

LAUTER, LAUTER2,
LEISER, LEISER2

Dynamik( LAUTER )

Pausen

Bezeichnung  Beschreibung Syntax  Beispiel
Pause kurz sucht nach Wortformen, die unmittelbar vor einer kurzen Pause (< 1s) stehen. ohne Argument -
Pause 1s sucht nach Wortformen, die unmittelbar vor einer 1s-Pause stehen. ohne Argument -
Pause allgemein sucht nach Wortformen, die unmittelbar vor einer beliebigen Pause stehen (schließt die beiden anderen Pausentypen ein). ohne Argument -

Nicht lexikalisierte Äußerungen

Bezeichnung  Beschreibung Syntax  Beispiel
Lacht sucht nach Wortformen, die unmittelbar vor einem Lachen stehen. ohne Argument -

Diskursstruktur

Bezeichnung  Beschreibung Syntax  Beispiel
Simultanpassage-Beginn sucht nach Wortformen oder -fragmenten am Anfang einer Simultanpassage. ohne Argument -
Simultanpassage-Ende sucht nach Wortformen oder -fragmenten am Ende einer Simultanpassage. ohne Argument -
Sprecher-Beginn sucht nach Wortformen oder -fragmenten am Anfang einer Äußerung. ohne Argument -
Sprecher-Ende sucht nach Wortformen oder -fragmenten am Ende einer Äußerung. ohne Argument -

Sprechereigenschaften

Bemerkung:

Die 4 folgenden Suchoperatoren wurden zu Demozwecken hinzugefügt. In den Transkripten wurden die Angaben über Sprecheralter und -geschlecht mit zufälligen Werten generiert (Stand: März 2000).

Alter der Sprecher: die abfragbaren Werte sind von der Form dec0, dec1, dec2, etc., d.h. das Alter wird in Dekaden angegeben, wobei dec0 für 0-9 Jahre steht, dec1 für 10-19 Jahre, etc.

Bezeichnung  Beschreibung Syntax  Beispiel
WORT-PERS-GESCHL sucht nach Wortformen von Sprechern eines bestimmten Geschlechts.

M: Masculinum
F: Femininum

WORT-PERS-GESCHL(<V> <X>)

<V> : Wortform

<X> : Geschlecht: M od. F

WORT-PERS-GESCHL( aber M )

WORT-PERS-GESCHL( aber F )

WORT-PERS-ALTER sucht nach Wortformen von Sprechern eines bestimmten Alters. WORT-PERS-ALTER( <V> <X> )

<V> : Wortform

<X> : Altersangabe: dec0, dec1, etc.

WORT-PERS-GESCHL( aber dec1 )
ÄUßERUNG-PERS-GESCHL sucht nach Äußerungen von Sprechern eines bestimmten Geschlechts ÄUßERUNG-PERS-GESCHL( <X> )

<X> : Geschlecht: M oder F

ÄUßERUNG-PERS-GESCHL( F )
ÄUßERUNG-PERS-ALTER sucht nach Äußerungen von Sprechern eines bestimmten Alters ÄUßERUNG-PERS-ALTER( <X> )

<X> : Altersangabe

ÄUßERUNG-PERS-ALTER( dec1 )

COSMAS II, Zentrale DV-Dienste - 14. 03. 2011