Jahrestagungen
Stefan Klatt
(Universität Stuttgart, Institut für Intelligente Systeme - IIS)
Kombinierbare Textanalyseverfahren für die Korpusannotation und Informationsextraktion
Abstract
Im Rahmen dieser Arbeit wurden Präzisionsverfahren zur Textanalyse (im besonderen für die Korpusannotation und die Informationsextraktion) für das Deutsche entwickelt, die auch autonom eingesetzt werden können.
Vom Anfang der Textanalyse bis hin zur Syntaxanalyse werden bestehende Probleme relevanter Verarbeitungsschritte diskutiert und Lösungswege zu deren Behebung dargeboten. Neben Problemen innerhalb der Verarbeitungsschritte werden dabei auch sonst gern vernachlässigte Probleme im Schnittstellenbereich zwischen den Verarbeitungsschritten sowie bei der Ergebnisausgabe behandelt.
Bei den entwickelten Werkzeugen handelt es sich um einen Tokenizer, einen regelbasierten Part-of-Speech-Tagger und einen mehrstufigen Parser, die alle mittels der Analysetechnik Pattern-Matching Easy-First Planning (PEP) implementiert wurden. Weiterhin wurden zwei einfach aufgebaute, rein korpusbasierte Verfahren zur Interpretation unbekannter Wörter und zur Extraktion fremdsprachlichen Materials entwickelt.
Eine Evaluierung der mit PEP entwickelten Werkzeuge (Tokenizer, Tagger und partieller Parser) führte zu besseren Resultaten gegenüber allen anderen bekannten Systemen in diesen Bereichen. Aber auch die beiden korpusbasierten Verfahren liefern ansprechende Ergebnisse und interessante Einsichten.
