Neue Version der DGD

Datenbank für Gesprochenes Deutsch 2.8
Seit dem 06.04.2017 steht die neue Version 2.8 der DGD unter http://dgd.ids-mannheim.de zur Verfügung. Wichtigste Neuerungen sind:
  • Die Erweiterung des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) um 40 Ereignisse im Umfang von insgesamt 33 Stunden (Gesamtumfang nun: Daten zu 259 verschiedenen Gesprächen mit 202 Stunden Aufnahmen und 1.95 Millionen transkribierten Tokens).
  • Die vollständige Überarbeitung des Part-of-Speech-Tagging für das Korpus FOLK (Reduktion der Fehlerquote auf ca. 5% und Recherchefeld nun für alle Nutzer ohne vorherige Freischaltung verwendbar).
  • Die Bereitstellung von 102 Videoaufnahmen (für 55 Ereignisse aus FOLK sowie für jeweils ein Ereignis aus den Korpora "Emigrantendeutsch in Israel" (IS) und "Emigrantendeutsch in Israel: Zweite Generation" (ISZ)).
  • Die Erweiterung des Korpus "Australiendeutsch" (AD) um drei Teilkorpora mit insgesamt 173 Aufnahmen und 135 Transkripten.
Zu den einzelnen Neuerungen im Detail: (1) Das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) wurde um 40 Ereignisse im Umfang von insgesamt 33 Stunden erweitert. Unter den neu hinzugekommenen Daten sind sowohl verschiedene Typen von Alltagsgesprächen (z.B. Unterhaltungen beim Frühstück, WG-Casting, Gespräch bei der Autofahrt) als auch verschiedene institutionelle Interaktionen (z.B. universitäres Tutorial, Führung durch eine Ausstellung, Meeting in einem Wirtschaftsunternehmen). Wir danken Sabine Matthes von der Université de Bourgogne und Studierenden der LMU München für erfolgreiche Kooperationen zur Erhebung eines Teils dieser neuen Daten. FOLK beinhaltet nun insgesamt Daten zu 259 verschiedenen Gesprächen mit 202 Stunden Aufnahmen und 1.95 Millionen transkribierten Tokens. (2) Das Part-Of-Speech-Tagging für FOLK wurde vollständig überarbeitet. FOLK ist nun mit einer für Daten aus mündlicher Interaktion erweiterten und angepassten Version des Stuttgart-Tübingen-Tagsets (STTS 2.0) annotiert. Die Fehlerquote beim POS-Tagging konnte dabei auf ca. 5% reduziert werden. Bei der strukturierten Tokensuche wird das Feld zur Recherche in POS-Tags nun für alle Nutzer ohne vorherige Freischaltung eingeblendet. (3) Für 55 Ereignisse aus FOLK sowie für jeweils ein Ereignis aus den Korpora "Emigrantendeutsch in Israel" (IS) und "Emigrantendeutsch in Israel: Zweite Generation" (ISZ) stellt die DGD nun auch insgesamt 102 Videoaufnahmen bereit. Die DGD-Funktionalität zum Browsing und zur Recherche wurde erweitert, so dass nun auch Videos mit zugehörigen Transkripten oder Transkriptausschnitten online abgespielt werden können. Nach unseren Tests sollte diese Funktionalität mit Breitband-LAN- und schnelleren WLAN-Verbindungen gut funktionieren. Bei langsameren (DSL-)Verbindungen kann es vorkommen, dass das Video-Playback stockt. (4) Das Korpus 'Australiendeutsch' (AD) wurde um drei Teilkorpora mit insgesamt 173 Aufnahmen und 135 Transkripten erweitert. Damit sind nun alle Daten zum Australiendeutschen, die das AGD aus dem Nachlass von Michael Clyne erhalten hat (insgesamt knapp 65h Aufnahmen und 330.000 transkribierte Tokens), über die DGD verfügbar.