Methoden der Korpusanalyse und -erschließung


Lemmatisierung

Die Lemmatisierung ermöglicht, dass Flexionsformen,

Zusammensetzungen und/oder sonstigen Wortbildungsformen ihre

Grundformen zugeordnet werden können. Im diesem Zusammenhang sind Grundformen

  • unflektierte Simplizia verschiedener Wortarten,
  • unflektierte Ableitungen und Komposita,
  • Wortbildungsmorpheme.

Das Lemmatisierungsverfahren Flexionsanalyse und Kompositazerlegung wurde im Jahr 1994

von Cyril Belica entwickelt

(Cyril Belica: WP2 -

Lemmatizer. Final Report. MLAP93-21 MECOLB, Deliverable D5. Luxembourg, July 1994) und wird seitdem

als ein Modul des COSMAS-Systems (siehe auch

Konzeptuelle Weiterentwicklung

der COSMAS-Plattform) eingesetzt.

In diesem Teilprojekt soll das Programmsystem weiter entwickelt werden mit dem Ziel, die

korpusbasierte Inventarisierung des Wortschatzes weiter zu optimieren. Geplant ist die Systematisierung

und Ergänzung des zugrundeliegenden elektronischen Lexikons und des Regelsystems für

die morphologische Analyse und - je nach der zur Verfügung stehenden Kapazität - eventuell

auch die Erweiterung der Funktionalität im Hinblick auf die neue Rechtsschreibung, auf gesprochene

Sprache und auf historische Tiefe des zu lemmatisierenden Wortinventars.

Zurück zur

Projektseite


Kontakt:

Cyril Belica <belica@ids-...>