Neues Projekt in der Abteilung Pragmatik

SegCor – ANR-DFG-Projekt „Segmentation of Oral Corpora“
Am 1. März 2016 ist im Programmbereich "Mündliche Korpora" der Abteilung Pragmatik das neue Kooperationsprojekt SegCor – ANR-DFG-Projekt "Segmentation of Oral Corpora" unter Leitung von Thomas Schmidt, IDS Mannheim und Véronique Traverso, ICAR angelaufen. Seit Beginn der Forschung an gesprochener Sprache wurde eine Vielzahl von Vorschlägen zur Segmentierung gesprochener Sprache gemacht. Dennoch existiert bisher kein Segmentierungssystem, das sowohl linguistisch fundiert als auch praktisch operationalisierbar ist für große Korpora gesprochener Sprache. Dies erschwert die Nutzung dieser Korpora für die Forschung, einerseits für linguistische Analysen der Gesprochene-Sprache-Forschung oder den Sprachvergleich mit anderen Sprachen, andererseits auch für die Entwicklung von Sprachtechnologie.  Forschungsgegenstand und -ziele: Ziel dieses Projekts ist daher, Methoden der Segmentierung gesprochener Sprache zu entwickeln. Diese sollen einerseits linguistisch fundiert sein und andererseits auch adäquat, sowohl für die Analyse von Spontansprache auf verschiedenen linguistischen Ebenen als auch für die Weiterverarbeitung mit sprachtechnologischen Werkzeugen. Die Veröffentlichung einer Guideline zur systematischen Segmentierung für verschiedene Datentypen deutscher und französischer Sprache ist ein Meilenstein dieses Forschungsvorhabens. In einem weiteren Schritt sollen Möglichkeiten der Automatisierung der Segmentierung gesprochener Sprache auf Basis der entwickelten Guidelines erprobt und dokumentiert werden. Auf diese Weise wird das Projekt nicht nur die Nutzbarkeit der drei beteiligten Datenbanken erweitern sondern auch unser Verständnis von Strukturen der gesprochenen Sprache vertiefen.  Als Datengrundlage für dieses Projekt dienen auf der deutschen Seite das <link prag muendlichekorpora folk.html>FOLK-Korpus (Forschungs- und Lehrkorpus Gesprochenes Deutsch), auf der französischen Seite die Datenbank CLAPI (Corpus de LAngue Parlée en Interaction) und das ESLO corpus (Enquêtes sociolinguistiques à Orléans). Kooperation: SegCor ist ein von der Deutschen Forschungsgemeinschaft und der französischen ANR gefördertes Projekt. Im Projekt kooperiert die Abteilung Pragmatik des Instituts für Deutsche Sprache mit zwei französischen Partnern: dem ICAR (Interactions, Corpus, Apprentissages, Représentations) der Université de Lyon und dem LLL (Laboratoire Ligérien de Linguistique) der Université d’Orleans.