Deutscher Wortschatz
Abstract
Das Projekt "Deutscher Wortschatz" ist einerseits eines der größten Korpora der Deutschen Sprache, wie sie hauptsächlich in Zeitungen und Populärwissenschaftlichen Texten benutzt wird. Andererseits ist es ein Projekt zur Entwicklung von zumeist statistisch basierten Algorithmen und Verfahrensweisen zur voll- oder semiautomatischen Sammlung und Verarbeitung von natürlichsprachlichem Material. Zur Verarbeitung zählen dabei Verfahren zur Qualitätssicherung (Rechtschreibfehler, widersprüchliche Informationen, fehlende Angaben) als auch Verfahren zur automatischen Generierung von Angaben. Dabei wird bereits gesammeltes Material mit bekannten Algorithmen zu neuem Wissen kombiniert, woraus ebenfalls Möglichkeiten für neuartige Algorithmen entstehen. Es werden morphologische und syntaktische Merkmale von ungetaggten Wortformen berechnet (Kasus, Genus, Wortart), sowie auch semantische Eigenschaften (semantische Nähe, Sachgebiet, verschiedene Bedeutungen). Ein Schwerpunkt liegt auch darin, sprachunabhängige Strukturen zu erkennen und für automatische Verfahren nutzbar zu machen.