IDS-Logo
Startseite : : Über uns : : Jahrestagungen : : Jahrestagung 2006 : : Abstract

Dr. Thorsten Brants (Google, Mountain View, USA)

Statistisch basierte Sprachmodelle und maschinelle Übersetzung

Abstract

Je mehr Daten desto besser. Dieses Motto gilt momentan für das Trainieren von statistischen Sprachmodellen. In unserem System zur maschinellen Übersetzung sehen wir eine fast konstante qualitative Verbesserung (gemessen als BLEU score) mit jeder Verdoppelung der monolingualen Trainingsdatenmenge. Selbst bei Mengen von ca. 20 Milliarden Wörtern aus Nachrichtentexten und ca. 200 Milliarden Wörten aus Webseiten ist kein Abflachen der Lernkurve in Sicht.

Dieser Vortrag berichtet über die Speicherung solch großer Datenmengen, das Trainieren der Sprachmodelle in einer parallelen Architektur, die effiziente Verwendung der bis zu 1 Terabyte großen Modelle in der maschinellen Übersetzung, und den Einfluß der Datenmenge auf die Qualität der Übersetzungen.