Methoden der Korpusanalyse und -erschließung
Lemmatisierung
Die Lemmatisierung ermöglicht, dass Flexionsformen,
Zusammensetzungen und/oder sonstigen Wortbildungsformen ihre
Grundformen zugeordnet werden können. Im diesem Zusammenhang sind Grundformen
- unflektierte Simplizia verschiedener Wortarten,
- unflektierte Ableitungen und Komposita,
- Wortbildungsmorpheme.
Das Lemmatisierungsverfahren Flexionsanalyse und Kompositazerlegung wurde im Jahr 1994
von Cyril Belica entwickelt
Lemmatizer. Final Report. MLAP93-21 MECOLB, Deliverable D5. Luxembourg, July 1994) und wird seitdem
als ein Modul des COSMAS-Systems (siehe auch
Konzeptuelle Weiterentwicklung
der COSMAS-Plattform) eingesetzt.
In diesem Teilprojekt soll das Programmsystem weiter entwickelt werden mit dem Ziel, die
korpusbasierte Inventarisierung des Wortschatzes weiter zu optimieren. Geplant ist die Systematisierung
und Ergänzung des zugrundeliegenden elektronischen Lexikons und des Regelsystems für
die morphologische Analyse und - je nach der zur Verfügung stehenden Kapazität - eventuell
auch die Erweiterung der Funktionalität im Hinblick auf die neue Rechtsschreibung, auf gesprochene
Sprache und auf historische Tiefe des zu lemmatisierenden Wortinventars.
Kontakt:
Cyril Belica <belica@ids-...>