Links zur Korpuslinguistik und Sprachtechnologie für gesprochene Sprache
-
COSMAS II kann gesprochenes Material in digitalisierter Form integrieren. Das ermöglicht die Zuordnung von digitalisierten gesprochenen Äußerungen zu deren Audio-Dateien, so dass Treffer abgespielt werden können. Bei Recherchen berücksichtigt es die Besonderheiten verschrifteter gesprochener Sprache (Simultanpassagen, d.h. Gleichzeitigkeit von Äußerungen, Fragmentierung von Wörtern, nicht-lexikalisierte Äußerungen, Pausen usw.) und stellt einen sprecherbezogenen Wortabstandsoperator zur Verfügung.
Bayerisches Archiv für Sprachsignale (BAS)
Das BAS macht digitale Datenbasen mit gesprochenem Deutsch in strukturierter Form sowohl der Forschungsgemeinschaft als auch der Sprachtechnologie verfügbar.
Speech Annotation and Corpus Tools
"A special issue of Speech Communication": Das Sonderheft (Jg. 33, Heft 1-2, 2001) informiert interdisziplinär über aktuelle Entwicklungen in der Repräsentation und Verwaltung annotierter Korpora gesprochener Sprache (Sprachsignale mit zeitalignierten Transkripten).
-
Die von Stephen Bird und Marc Liberman vom Linguistic Data Consortium (LDC), Philadelphia, zusammengestellte Seite enthält eine repräsentative Liste von Links auf Werkzeuge, Formate und Verfahrensbeschreibungen für annotierte Korpora zur gesprochenen Sprache.
-
Das CHILDES-System stellt Werkzeug zur Erforschung konversationeller Interaktion bereit: eine Transkript-Datenbank, Programme zur computergestützten Analyse von Transkripten, Verfahren zur sprachlichen Kodierung und Systeme, um Transkripte mit digitalisierten Audio- und Videodateien zu verknüpfen.
-
COCOSDA ist ein internationales Komitee zur Koordinierung und Standardisierung von Datenbanken zu gesprochener Sprache und Zugriffstechniken auf Spracheingabe und -ausgabe. Es wurde begründet, um eine internationale Zusammenarbeit bei den ursprünglichen Bereichen der automatischen Sprachverarbeitung anzuregen und fördern. COCOSDA bietet ein Forum für internationale Zusammenarbeit und Diskussion an; Arbeitsgruppen können Informationen austauschen und auf dem Gebiet der Sprachtechnologie für gesprochene Sprache kooperieren.
-
Dies ist die Homepage fü den "CSLU Toolkit", eine reichhaltige Folge von Werkzeugen für Forschung und Lehre zu gesprochener Sprache und Mensch-Maschine-Interaktion. Der CSLU Toolkit wurde entwickelt, um ein Grundsystem und Werkzeuge zum Aufbau, zur Erforschung und Benutzung interaktiver Sprachsysteme zur Verfügung zu stellen. Diese Systeme umfassen fortgeschrittene Spracherkennung, Sprachverstehen, Sprachsynthese und Mimik-Animationstechniken. Die Werkzeugfolge sieht eine reichhaltige, leistungsfähige und flexible Umgebung vor, um interaktive Sprachsysteme zu errichten, die sich dieser Technologien bedienen, und um Verbesserungsmöglichkeiten zu erforschen.
-
"Expert Advisory Group on Language Engineering Standards Spoken Language Working Group". "EAGLES I": Das Ziel der EAGLES-SLWG war es, auf der Grundlage europäischer Projekte ein Handbuch für Standards und Ressourcen von Systemen gesprochener Sprache zu verfassen und zu pflegen. "EAGLES II" (ab Januar 1997): Mit den EAGLES-Arbeitsprogrammen 4, 5 und 6 wurde ein Anhang für das Handbuch verfasst, in dem weitere Themen behandelt und aktualisierte und erweiterte Referenzmaterialien aufgenommen wurden.
-
Die "Expert Advisory Group on Language Engineering Standards" (EAGLES) ist eine Initiative der Kommission der Europäischen Union im Rahmen des Programms für "Linguistic Research and Engineering" in der Generaldirektion XIII, mit dem eine Standardisierung für Sprachressourcen sehr großen Maßstabs beschleunigt werden soll (wie Textkorpora, computerisierte Lexika und Korpora gesprochener Sprache), Verfahren zur Handhabung dieses Wissens über linguistische Formalisierunge, Markup-Sprachen und unterschiedliche Software sowie Verfahren zur Verfügung über und Bewertung von Ressourcen, Werkzeugen und Produkten. Für die Normierungsarbeit gibt es 5 Arbeitsgruppen zu Textkorpora, computerisierten Lexika, Formalisierungen der Grammatik, Evaluationen und gesprochener Sprache.
ISCA International Speech Communication Association
ISCA ist eine nichtkommerzielle Organization mit dem Ziel, Forschung zu sprachlicher Kommunikation und Sprachtechnologie im europäischen Kontext im gewerblichem und akademischen Bereich zu fördern und dabei alle Aspekte sprachlicher Kommunikation abzudecken (physiologische Akustik, Phonestik, Phonologie, Linguistik, automatische Sprachverarbeitung, Künstliche Intelligenz, Kognitivistik, Signalverarbeitung, Mustererkennung usw.).
-
ELAN (EUDICO Linguistic Annotator) ist ein Werkzeug zum Eingeben, Editieren, Visualieren von Annotationen und zur Suche danach. Das Programm wurde am Max-Planck-Institut für Psycholinguistik in Nijmegen (Niederlande) als robuste technologische Grundlage für die Annotierung und Verwertung multimedialer Korpora entwickelt. ELAN ist insbesondere für eine Analyse von Sprache, Zeichensprache und Gestik konzipiert, kann aber von jedem zum Zweck des Annotierens, der Analyse und der Dokumentation benutzt werden, der mit medialen Korpora arbeitet, d.h. mit Video und/oder Audiodaten.
-
Audiodateien zu "Reflections on Studying Prosody in Talk-In-Interaction" von Emanuel A. Schegloff.
Praat: doing phonetics by computer
Das Programm "Praat" ist ein Werkzeug für Phonetiker zur Erforschung, Publikation und Manipulation von Sprachsignalen. "Praat" wurde entwickelt von Paul Boersma und David Weenink vom Institut für Phonetik an der Universität Amsterdam (Niederlande).
Transcriber - a tool for segmenting, labeling and transcribing speech
Das Programm Transcriber unterstützt die Zusammenstellung von Korpora gesprochener Sprache. Mit ihm kann man manuell Sprachsignale segmentieren, labeln und transkribieren, um sie danach in der automatischen Sprachverarbeitung nutzen zu können. Insbesondere dient es der Transkription lägerer Rundfunknachrichtensendungen; dabei werden Sprecher- und Themenwechsel gelabelt. Transcriber hat eine intuitiv zu bedienende und konfigurierbare Benutzeroberfläche. Transcriber wurde entwickelt von Claude Barras.
"Ton und Text" Hilfsprogramme für Transkribenten
'Ton und Text' (kurz: 'TuT') ist eine Gruppe von Hilfsprogrammen zur Unterstützung der Arbeit von Transkribenten. Den Kern der TuT-Programme stellt ein Werkzeug zur Wiedergabe von digital aufgezeichneten Tonsignalen dar. Alle TuT-Programme übernehmen beim Transkribieren die Wiedergabe-Funktionen von Tonbandgeräten." TuT wurde entwickelt von Wolfgang Schneider (Dortmund).
EXMARaLDA ('EXtensible MARkup Language for Discourse Annotation') ist ein XML-basiertes System zur Diskurstranskription und -annotation auf dem Computer. Die Entwicklung ist Teil eines Projektes am Sonderforschungsbereich 'Mehrsprachigkeit' in Hamburg. Langfristiges Ziel dieses Projektes ist die Erstellung einer mehrsprachigen Diskursdatenbank. EXMARaLDA wird entwickelt von Thomas Schmidt (Hamburg).