[IDS-Logo] [COSMAS-II-Logo]
Seite drucken Thema drucken Sitemap Suche Impressum Datenschutz Kontakt
Syntax der grafischen EingabeTextpositionen

Bedingungen für die Position von Ergebnissen innerhalb der Textstruktur

Für die Suche nach Wörtern und Annotationen und deren Kombination und Verarbeitung durch alle möglichen Operatoren können Bedingungen für deren Anfangs- und Endposition innerhalb der Textstruktur formuliert werden.

Spezifizierbare Textpositionen

Abkürzung Textposition Bedeutung
SA oder sa Satzanfang das erste Wort eines Satzes
SE oder se Satzende das letzte Wort eines Satzes
PA oder pa Absatzanfang das erste Wort eines Absatzes, ist zugleich erstes Wort eines Satzes
PE oder pe Absatzende das letztes Wort eines Absatzes; ist zugleich letztes Wort eines Satzes
TA oder ta Textanfang erstes Wort eines Textes, zugleich auch eines Absatzes und eines Satzes
TE oder te Textende letztes Wort eines Textes, zugleich auch eines Absatzes und eines Satzes

Wie ermittelt COSMAS II die Textpositionen

Die bekannten SGML bzw. XML-Textauszeichnungen für Sätze (<s> … </s>), Absätze (<p> … </p>) und den Text(körper) (<text> … </text>) dienen als Hauptquelle für die Extraktion dieser Informationen aus den Korpora. Da COSMAS II eine Satzsegmentierung auch dann anhand der Satzzeichen .:;!? etc. vornimmt, wenn keine <s> … </s> vorhanden sind, beliefern diese Satzzeichen das System ebenfalls mit den Satzgrenzen SA und SE.1

Anfangs- und Endposition bei Annotationen und Textauszeichnungen

Annotationen (ob linguistische Annotationen oder Textauszeichnungen) umfassen in der Regel einen Bereich von Wörtern und haben deshalb eine Anfangs- und Endposition, wie die folgenden Beispiel verdeutlichen:

Beispiele

Anfangs- und Endposition bei Kombinationsoperatoren

Kombinationsoperatoren wie der Abstandsoperator erzeugen Ergebnisse bestehend aus einem Wortbereich, dessen Anfangsposition aus dem am weitesten links gefundenen Wort und dessen Endposition aus dem am weitesten rechts gefundenen Wort gebildet wird.

Beispiele

Anfangs- und Endposition bei Wortsuchen und reduzierenden Operatoren

Bei Wortsuchen (Suche nach einem Wort mit/ohne Platzhalter und bei der lemmatisierten Suche) und bei reduzierenden Operatoren (Operatoren wie LINKS(), die einen gefundenen Bereich auf 1 einzelnes Wort reduzieren) sind Anfangs- und Endposition immer identisch. Deshalb reicht es aus, bei diesen Suchobjekten nur Angaben über ihre (Anfangs)position zu machen.

Beispiele

Formulieren von Bedingungen für die Position im Text

Beim Formulieren von Bedingungen wird:

spezifiziert.

Allgemeine Form: "Bedingungen für Anfangsposition" / "Bedingungen für Endposition"

Bedingungen für Anfangs- und Endpositionen werden durch den Separator / getrennt. Dabei ist es möglich, entweder

Eine Bedingung besteht aus einer oder mehreren Textpositionen, die mittels der Abkürzungen aus der obigen Tabelle ausgedrückt werden, und die mit einem Komma voneinander getrennt werden.

Beispiele

Bedingungen Auswirkung konkretes Beispiel
sa oder +sa prüft in einem Ergebnis, dass Anfangspos. = Satzanfang. Tür :sa: sucht nach Tür am Satzanfang
ELEM(S) :sa: sucht nach einer Satzmarkierung, die am Satzanfang beginnt: da dies natürlich immer der Fall ist, ist :sa: hier überflüssig.
sa,-pa prüft in einem Ergebnis, dass Anfangspos. = Satzanfang und Anfangspos. ≠ Anfang eines Absatzes. ABSTAND(die, +w1, Vertreibung) :sa,-pa: sucht nach die Vertreibung am Satzanfang, aber nicht am Anfang eines Absatzes.
ELEM(S) :sa,-pa: sucht nach einer Satzmarkierung, die nicht am Anfang eines Absatzes steht. Da :sa: für ELEM(S) immer erfüllt ist, führt :-pa: zum gleichen Ergebnis.
se oder +se prüft in einem Ergebnis, dass Anfangspos. = Satzende. und :se: sucht nach und am Satzende. Die Bedingung :sa: und :se: führen bei Einzelwortsuchen zum gleichen Ergebnis, da deren Anfangs- und Endposition identisch sind.
sa,se prüft in einem Ergebnis, dass Anfangspos. = Satzanfang und Anfangspos. = Satzende. perfekt :se: sucht nach perfekt am Satzanfang und Satzende, also in 1-Wort-Sätzen.
-sa,-se prüft in einem Ergebnis, dass Anfangspos. ≠ Satzanfang und Anfangspos. ≠ Satzende. perfekt :-sa,se: sucht nach perfekt innerhalb des Satzes, also weder am Satzanfang noch am Satzende.
/se prüft in einem Ergebnis, dass Endpos. = Satzende. ABSTAND(nicht,+s0,LEM(sein)) :/se: sucht nach nicht gefolgt von einer Flexionsform von sein am Satzende.
sa/se prüft in einem Ergebnis, dass Anfangspos. = Satzanfang und Endpos. = Satzende. ABSTAND(LEM(sein),s0,nicht) :sa/se: sucht nach Sätzen, die mit einer Flexionsform von sein beginnen und mit nicht enden.
sa/sa prüft in einem Ergebnis, dass Anfangspos. = Satzanfang und auch Endpos. = Satzanfang. LINKS(ABSTAND(LEM(sein),s0,nicht)) :sa/sa: exotisches Beispiel, das sich mit :sa: allein auch ausdrücken liesse, da das Ergebnis von LINKS 1-Wort-Treffer sind, für die Anfangs- und Endposition identisch sind.
/se,-pe prüft in einem Ergebnis, dass Endpos. = Satzende und Endpos. ≠ Absatzende. ELEM(S) :/se,-pe: findet Sätze (durch die Satzmarkierung), die nicht am Ende eines Absatzes stehen.
/sa prüft in einem Ergebnis, dass Endpos. = Satzanfang. ABSTAND(ABSTAND(wegen,+w2,s0,des),+s1:1,er) :/sa: findet innerhalb 1 Satzes (+w2,s0) wegen … des, wenn der nächste Satz (+s1:1) mit Er beginnt (:/sa:).

Operator BED für die Formulierung von Bedingungen für die Position im Text

Bedingungen für die Textposition werden mit Hilfe des Operators BED (für deutsch Bedingung oder seines internen englischen Pendants COND, für condition) angegeben.

Beispiele

Bsp. 1: BED(*tür, -sa,-se)

Da die Bedingungen -sa,-se in ein separates Feld von Operator BED eingetragen werden, kann auf die : verzichtet werden.

Bsp. 2: ABSTAND(BED(ABSTAND(die,+w1,Vertreibung),pa),s0,LEM(planen))

In dieser zweifachen Abstandssuche wird auf die Vertreibung die Bedingung gestellt, dass es einen Absatz einleiten soll (Bedingung pa). Innerhalb eines solchen Satzes, falls er gefunden wird, soll dann nach einer Flexionsform von planen gesucht werden. Operator BED kann also an beliebiger Stelle und mehrfach eingesetzt werden. Siehe auch Beispiel 4.

Angabe von Bedingungen für die Position im Text ohne Operator BED

Zur Vereinfachung erlauben die Operatoren für die Wort-, Lemma- und SGML-Element-Suche die Angabe von Bedingungen für die Position direkt im Namensfeld. Dabei ist zu beachten, dass zwischen dem gesuchten Begriff und den Bedingungen kein Leerzeichen steht.

Beispiele

Bsp. 3: STR(*tür:-sa,-se:)

Bsp. 4: ABSTAND(ABSTAND(die:pa,+w1,Vertreibung),s0,LEM(planen))

Dieses Beispiel stellt eine Vereinfachung von Beispiel 2 dar, indem die Bedingung +pa ohne Operator BED direkt hinter dem Artikel die eingetragen wird. Das Ergebnis ist das gleiche wie in Beispiel 2.

Bsp. 5: ELEM(S:-pa)

Vorteile der direkten Eingabe von Textpositionen in Suchanfragen

Das Filtern von (Zwischen-)Ergebnissen mittels Textpositionen kann bzw. konnte bisher auch mit dem allgemeinen Operator ELEM ausgeführt werden. Die Vorteile der direkten Nutzung der hier beschriebenen Textpositionen gegenüber ELEM sind die folgenden:

Beispiel

Folgende Suchanfrage soll mit der direkten Angabe von Textpositionen und durch ELEM ausgedrückt werden: Gesucht werden Sätze, die Got und Krieg enthalten und die mit dem einen dieser beiden Begriffe enden.

Die eigentliche Suchanfrage lautet: Q1 = ABSTAND(Gott,s0,LEM(Krieg))

Mit direkter Spezifikation von Textpositionen:

Bsp. 6: BED(Q1,/se)

Mit Operator ELEM:

Bsp. 7: ABSTAND(Q1,w0,RECHTS(ELEM(S)))

COSMAS II, Zentrale DV-Dienste - 18. 10. 2010