Dr. Andrea Kowalski (Saarbrücken)

Wahrig Textkorpus digital

Abstract

Das Wahrig Textkorpus digital (WTd) ist das Resultat einer inzwischen mehr als zweijährigen Zusammenarbeit zwischen der Firma CLT Sprachtechnologie (eine Ausgründung der Universität des Saarlandes) und dem Wissen Media Verlag (vormals Bertelsmann Lexikon Verlag).

CLT hat das WTd aufgebaut, ein großes deutsches Korpus mit weit über 500 Mio. Textwörtern, das beständig aktualisiert und erweitert wird. Es enthält mehrere Ebenen der linguistischen Annotation (wie POS, Lemmatisierung, partielle Konstituentenstrukturen). Verschiedene Erweiterungen der Annotation, z. B. um semantische Information, sind in Planung.

Die von CLT vorgenommenen Auswertungen des WTd gehen in die Neuauflagen der verschiedenen Wörterbücher aus der Wahrig-Reihe ein. Bisher stand dabei die Erzeugung von wörterbuchspezifischen Lücken- und Neologismenlisten im Zentrum. Aber auch die automatische Erkennung von rechtschreibschwierigen Wörtern, Anglizismen (mit heterogenen Flexionseigenschaften), Kollokationen etc. sind auf der Basis des WTd vorgenommen worden.

Diese Auswertungen gehen als Empfehlungen an die Lexikografen, die letztlich über Neuaufnahmen in den Wörterbuchbestand sowie Aktualisierung oder Streichung von veralteten Einträgen entscheiden.

In diesem Vortrag wird die computerlinguistische Seite dieser Zusammenarbeit dargestellt. Der Schwerpunkt wird dabei auf die verschiedenen Ebenen der Korpusbearbeitung und die Präsentation der Auswertungsverfahren gelegt.