"Alignment": Maschinelle Text-Ton-Synchronisation
Bearbeiter: Dr. Rudolf Schmidt (E-Mail: rudolf.schmidt@ids-mannheim.de)
Übersicht
Tonmaterial in Form von Audio- oder Videoaufnahmen spielt in dem Bereich der Linguistik, der sich mit verbaler Interaktion beschäftigt, eine bedeutende Rolle. Die Auswertung des Materials gestaltet sich jedoch schwierig, da datenbankmäßige Abfragen zunächst nicht möglich sind. Um das Material recherchierbar zu machen, wird in der Linguistik meist das Material mühsam komplett transkribiert (vgl. Projekt DIDA). Das Gesprochene liegt anschließend in schriftlicher Form vor, oft angereichert mit intonatorischen Markierungen und weiteren Kommentaren (vgl. Transkriptionsrichtlinien). Mit einem Textdatenbanksystem (vgl. COSMAS-II) lassen sich die Informationen der so transkribierten Diskurse zwar recherchieren, jedoch ist eine Suche nach sprachlichen Einheiten im Audiomaterial zunächst nicht möglich. Daraus ergibt sich die Forderung, Text- und Audiomaterial unter Berücksichtigung der Synchronität zu verbinden.
Diese Verbindung lässt sich computertechnisch mit Hilfe eines modifizierten Spracherkenners (sogenannter "Aligner") realisieren, wie er z.B. am IDS im Rahmen des Projekts SERGES entwickelt worden ist. Im Gegensatz zu einem Spracherkenner wird nicht ein Wortschatz zur Erkennung vorgelegt, sondern die Folge der transkribierten Wörter in ihrer vorgegebenen Reihenfolge. Dadurch wird die Komplexität des Suchvorganges stark reduziert. Selbst bei Material von akustisch mäßiger Qualität darf auf Wortebene mit akzeptablen Ergebnissen gerechnet werden. Das Ergebnis besteht darin, dass den einzelnen Wörtern Zeitmarken zugeordnet werden, die auf den Zeitpunkt des Auftretens in der Audiodatei verweisen. Diese Zeitmarken bilden die Verbindung zwischen Text- und Tonmaterial und werden nach dem Alignment in die Textdateien (in SGML-Format) gemischt und stehen dann dem Textdatenbanksystem COSMAS-II zur Verfügung, das es erlaubt, die Rechercheergebnisse nicht nur anzusehen sondern auch anzuhören.
In einem vom Land Baden-Württemberg finanzierten Kooperationsprojekt mit dem Institut für Maschinelle Sprachverarbeitung (IMS) an der Universität Stuttgart wurden von 1998-2001 die am IMS und am IDS vorhandenen Aligner-Werkzeuge weiter entwickelt.
Bisher wurde im Rahmen von verschiedenen Projekten (Datenbank gesprochenes Deutsch, Variation des gesprochenen Deutsch, GAIS, Sprachvariation) Tonmaterial im Umfang von über 260 Stunden aligniert. Der überwiegende Teil davon steht für die Recherche zur Verfügung. Zu den bearbeiteten Gesprächskorpora gehören zur Zeit Freiburger Korpus (fast vollständig) und kleinere Teile von Gespräche im Fernsehen, Stadtsprache Mannheim, Beratungsgespräche und Schlichtungs- und Gerichtsverhandlungen. Von den Sprachvarietätenkorpora wurden bisher das Pfeffer-Korpus (vollständig), Teile des Zwirner-Korpus und kleinere Teile von König- und Ostdeutsche Mundarten-Korpus bearbeitet.
Die Anforderungen an das Alignment gehen von der Behandlung von Simultanpassagen insbesondere bei Aufnahmen von Schlichtungsgesprächen und Talkshows, über die Synchronisation von hochsprachlich transkribierten Dialektaufnahmen bis hin zu akutisch schwer verständlichen Ausschnitten.
Weiterführende Entwicklungen der oben beschriebenen Software sind in folgenden Richtungen geplant:
- Robustifizierung im Hinblick auf schwierige Akustik,
- Variantendetektion, z.B.
- auf Wortebene,
- intrasegmental,
- Analyse der Gesprächsdynamik,
- Topicspotting (Erschließung der vermutlichen Gesprächsthematik).