[IDS-Logo] Online-Hilfe zu COSMAS II/web: Syntax der zeilenorientierten Suchanfragesprache
Syntax der ZeileneingabeSuchoperatorenWortformoperatorenGrundformoperatorerweiterte Optionen

Erweiterte Optionen für Komposita

Voraussetzung

Die hier vorgestellten erweiterten Komposita-Optionen sind erst bei eingeschalteten Lemmatisierungsoptionen wie folgt wirksam:

Lemma-Option Einstellung Bemerkung Beispiele für &Fang
Komposita erforderlich Fang, Fangbecken, etc.
sonstige Wortbildungsformen fakultativ erzeugt zusätzliche Komposita durch die Hinzunahme von Affixen. zusätzlich: Abfangbecken, unfangreich, Wiederfangraten, etc.
Spezialfälle ausgeschaltet lassen

Wirkung

Bei den erweiterten Komposita-Optionen geht es darum, aus der Liste der gefundenen Komposita diejenigen herauszufiltern, die bestimmte morphologischen Merkmale aufweisen:

Die zugrunde liegende morphologische Analyse wird mit dem am IDS entwickelten Programm glemm durchgeführt.

Vorbehalt

Lesen Sie bitte folgende Hintergrundinformation zu den auf dieser Seite beschriebenen Daten, bevor Sie sich entscheiden, diese für Ihre Arbeit zu nutzen.

Die als erweiterte Komposita-Optionen verfügbaren Daten wurden als Nebenprodukt der morphologischen Analyse der Korpora gesammelt. Als solche können sie leider den Anspruch auf Vollständigkeit nicht erfüllen. Zum einen können im der Analyse zugrundeliegenden Lexikon Informationen in einzelnen Einträgen fehlen, z.B. einzelne Fugenelemente. Andererseits werden aus Design- und Effizienzgründen nicht alle morphologischen Dekompositionen berücksichtigt. Schließlich seien die Fälle erwähnt, in denen Uneinigkeit über die Form der Lexikoneinträge herrscht (z.B. ens oder en + s als Fugenelement). Aus alle diesen Gründen sollten die hier erzielten Ergebnisse linguistisch nicht als autoritativ gewertet oder übernommen werden.

Es kann somit vorkommen, dass Suchanfragen, die mit den erweiterten Optionen formuliert werden, nicht alle Treffer finden, die man mit anderen Wortform-Suchanfragen zu sehen bekommt.

Beispiel: mit dem regulären Ausdruck #REG(^Herzens.*) findet man u.a. Herzensangelegenheit. Mit dem erweiterten Suchausdruck &Fens&Herz, auf der Basis des Lemmas Herz und des Fugenelements ens, wird das ebensolche Kompositum nicht wie erwartet gefunden. Grund dafür ist entweder, dass das Fugenelement ens für diese Wortform im Lexikon fehlt oder dass die automatische morphologische Zerlegung ens nicht als Fuge, sondern anders interpretiert hat, z.B. als Flexion en + Fugen-s.

Für z.B. quantitative Auswertungen sind somit Suchanfragen mit dieser Implementation der erweiterten Komposita-Optionen leider nur begrenzt aussagekräftig.

Syntax

Die erweiterten Optionen werden als Präfix zum gesuchten Lemma zwischen zwei &-Zeichen wie folgt eingegeben:

wobei es fünf beliebig miteinander kombinierbare Optionsgruppen gibt:

mit den folgenden Einzeloptionen:

Position Fugenelement Anzahl Dekompositionen Groß-/Klein
E|M|L F(%)(…)(+|-) <|=|>n(+) A G|K

Jede Option wird mit 1 oder 2 Zeichen angegeben, Leerstellen sind nicht erlaubt.

Bedeutung der Optionen

Options-
gruppe
Option Bedeutung Beispiel
für Lemma Heim
E|M|L E gesuchtes Lemma ist als Erstglied
im Kompositum zu finden
Heimarbeit
M gesuchtes Lemma ist als Mittelglied
im Kompositum zu finden
Altenheimküche
L gesuchtes Lemma ist als Letztglied
im Kompositum zu finden
Altenwohnheim
Anm.: die Optionsgruppe Position ist fakultativ, es kann nur eine von den drei Optionen angegeben werden.
F(%)(…)(+|-) F vor oder nach dem gesuchten Lemma steht ein nicht näher spezifiziertes Fugen-Element.
Handschuhsheim
F+
F-
Bei + soll das Fugenelement rechts vom Lemma stehen,
bei - links, ansonsten kann das Fugenelement beliebig links oder rechts stehen.
Bsp.: F+
Heimsbrunn
Bsp.: F-
Handschuhsheim
F% Das % schließt das Vorhandensein eines Fugenelements an der durch weitere Optionen spezifizierten Stelle aus. Bsp.: F%
Heimleiter
Fs
Fes
Fe
Fer
Fn
Fen
Durch eine dieser Optionen in (…) kann das Fugenelement näher spezifiziert werden:
's', 'es', 'e', 'er', 'n', 'en'.
Bsp.: &Fer&Frau
Gespensterfrauen
Anm.: die Optionsgruppe Fugenelement ist fakultativ. Sie wird immer von einem 'F' eingeleitet.
<|=|> n(+) < n Das Kompositum, in welchem das Lemma vorkommt,
zählt höchsten n Glieder (ohne Affixe).
Bsp.: <3
Asylanten'heim
< n+ Das Kompositum, in welchem das Lemma vorkommt,
zählt höchsten n Glieder und Affixe.
Bsp.: <3+
Asylanten'heim
= n Das Kompositum, in welchem das Lemma vorkommt,
zählt genau n Glieder (ohne Affixe).
Bsp.: =3
Heim'weh'kranke
= n+ Das Kompositum, in welchem das Lemma vorkommt,
zählt genau n Glieder und Affixe.
Bsp.: =3+
Heim'sekretär'in
> n Das Kompositum, in welchem das Lemma vorkommt,
zählt mehr als n Glieder (ohne Affixe).
Bsp.: >3
Eigen'heim'abzugs'betrag
> n+ Das Kompositum, in welchem das Lemma vorkommt,
zählt mehr als n Glieder und Affixe.
Bsp.: >3+
Heim'tücke'verordn'ung
Anm.: die Optionsgruppe Anzahl ist fakultativ. Es kann nur eine von den drei Optionen <, = und > angegeben werden.
A A Alle möglichen Dekompositionen des Kompositums werden herangezogen.
Default (ohne A): nur die Dekompositionen mit der höchsten Wahrscheinlichkeit werden berücksichtigt.
-
Anm.: die Optionsgruppe Dekompositionen ist fakultativ. Der Default wird empfohlen.
G|K G es werden nur diejenigen Wortformen angeboten, deren erstes Zeichen groß geschrieben ist.
Bsp.: &G&traurig
Trauriges, Traurigen, etc.
K es werden nur diejenigen Wortformen angeboten, deren erstes Zeichen klein geschrieben ist.
Bsp.: &K&traurig
trauriges, traurigen, etc.
Anm.: diese Optionsgruppe kann für alle Lemmata eingesetzt werden, nicht nur für die hier vorgestellte erweiterte Komposita-Suche.
Sie ist fakultativ. Der Default ist weder G noch K und bedeutet, dass sowohl groß- als auch klein geschriebene Wortformen angeboten werden. Empfohlen wird der Default.

Da für ein Kompositum in der Regel mehrere morphologische Dekompositionen möglich sind, gilt für alle Optionen mit Ausnahme von F% folgendes:

Beispiele

Die mit den folgenden Suchanfragen gefundenen Komposita varieren, je nach dem ob von den Lemmatisierungsoptionen nur Komposita oder auch sonstige Wortbildungsformen dazugeschaltet ist.

&E&Heim

Gesucht werden Komposita mit Heim als Erstglied: Heim, Heimabendgestaltung, etc.

&E>1&Heim

Gesucht werden Komposita mit Heim als Erstglied und mindestens zwei Glieder. Dadurch fällt Heim aus der Liste.

&EF+>1&Heim

Gesucht werden Komposita mit Heim als Erstglied, mindestens zwei Gliedern und beliebigem Fugenelement rechts von Heim (F+): Heimsgasse, Heimsheim, etc.

&MFn->2&Heim

Gesucht werden Komposita mit Heim als Mittelglied, mindestens 3 Gliedern und einem Fugen-n vor Heim (Fn-): Altenheimaufsicht, Familienheimzulage, etc.

&MF%n->2&Heim

Gesucht werden Komposita mit Heim als Mittelglied mit mindestens 3 Gliedern (>2), für die gilt: es gibt keine Dekomposition, bei der ein Fugen-n links vor Heim steht (F%n-).

&G&Heim

Gesucht werden nur die groß geschriebenen Komposita von Heim.

&K&Heim

Gesucht werden nur die klein geschriebenen Komposita von Heim.

Zählweise von Gliedern und Affixen

Die Komposita werden intern von der Lemmatisierungskomponente in ihre morphologischen Bestandteile zerlegt, welche für die Zwecke dieses Moduls in die folgenden Kategorien eingeordnet werden: Lemmata, Affixe, Fugenelemente und Flexionsformen.

Bsp. Abfangwahrscheinlichkeiten (Option sonstige Wortbildungsformen eingeschaltet)

Morphem : Ab fang wahrscheinlich keit en
Lemma : ab- Fang wahrscheinlich -keit -
Funktion : Affix Erstglied Endglied Affix Flexion

Für diese Lemmatisierung werden in COSMAS II 2 Glieder und 2 Affixe gezählt. Fugenelemente und Flexionsformen werden nicht dazu gezählt.

Das derart lemmatisierte Kompositum kann nun in COSMAS II durch die beiden folgenden Suchanfragen gefunden werden, je nachdem, wie gezählt werden soll:

Wird die erweiterte Option A eingesetzt (= alle Dekompositionen), so werden für selbiges Kompositum weitere tiefergehende Dekompositionen berücksichtigt, wie z.B. die folgende:

Morphem : Ab fang wahr schein lich keit en
Lemma : ab- fangen wahr- scheinen -lich -keit -
Funktion : Affix Erstglied Affix Endglied Affix Affix Flexion

Für diese Dekomposition zählt COSMAS II 2 Glieder und 4 Affixe.

Mehrdeutigkeiten

Wie man dem vorherigen Abschnitt entnehmen kann, werden für die Komposita sehr oft mehrere Dekompositionen berücksichtigt. Je nach Dekomposition ändert sich die Anzahl der Bestandteile oder ihre Funktion.

Bsp.: wahrscheinlich kann von COSMAS II sowohl als selbständiges Glied bzw. Lemma als auch als Komposition von Affix (wahr-) + Lemma (scheine) + Affix (-lich) aufgefasst werden. Siehe dazu die beiden Dekompositionen von Abfangwahrscheinlichkeiten.

Vorteile gegenüber der Platzhaltersuche mit * und +

Die hier vorgestellt Suche nach Komposita mit erweiterten Optionen ist der einfachen Platzhaltersuche auf alle Fälle vorzuziehen. Dieses Modul ist in der Lage, die korrekten Komposita zu finden, in dem es diese auf ihre morphologisch begründete Zerlegungen analysiert, Flexionen berücksichtigt (z.B. &Mann → Männerwelt), Fugenelemente und Flexionsmorpheme erkennt und die Position des gesuchten Lemmas innerhalb der Komposita bestimmt.

COSMAS II, Zentrale DV-Dienste - 18. 01. 2018