SegCor – ANR-DFG-Projekt „Segmentation of Oral Corpora“

Projektleiter:

Thomas Schmidt, IDS Mannheim und Véronique Traverso, ICAR

Projektmitarbeiter (deutsche Arbeitsgruppe):

Arnulf Deppermann, Joachim Gasch, Jan Gorisch, Henrike Helmer, Nadine Proske, Swantje Westpfahl, Ines Rehbein

Projektmitarbeiter (französische Arbeitsgruppe 1):

Heike Baldauf-Quilliatre, Biagio Ursi, Carole Etienne, Emilie Jouin-ChardonNathalie Rossi-Gensane

Projektmitarbeiter (französische Arbeitsgruppe 2):

Flora Badin, François Delafontaine, Iris Eshkol, Layal Kanaan-Caillol, Marie Skrovec

Laufzeit des Projekts:

März 2016 - Februar 2019

Projekt- und Ergebnisdokumentation: https://segcor.cnrs.fr/

Forschungsgegenstand und -ziele:

Seit Beginn der Forschung an gesprochener Sprache wurde eine Vielzahl von Vorschlägen zur Segmentierung gesprochener Sprache gemacht. Dennoch existiert bisher kein Segmentierungssystem, das sowohl linguistisch fundiert als auch praktisch operationalisierbar ist für große Korpora gesprochener Sprache. Dies erschwert die Nutzung dieser Korpora für die Forschung, einerseits für linguistische Analysen der Gesprochene-Sprache-Forschung oder den Sprachvergleich mit anderen Sprachen, andererseits auch für die Entwicklung von Sprachtechnologie.

Ziel dieses Projekts ist daher, Methoden der Segmentierung gesprochener Sprache zu entwickeln. Diese sollen einerseits linguistisch fundiert sein und andererseits auch adäquat, sowohl für die Analyse von Spontansprache auf verschiedenen linguistischen Ebenen als auch für die Weiterverarbeitung mit sprachtechnologischen Werkzeugen. Die Veröffentlichung einer Guideline zur systematischen Segmentierung für verschiedene Datentypen deutscher und französischer Sprache ist ein Meilenstein dieses Forschungsvorhabens. In einem weiteren Schritt sollen Möglichkeiten der Automatisierung der Segmentierung gesprochener Sprache auf Basis der entwickelten Guidelines erprobt und dokumentiert werden. Auf diese Weise wird das Projekt nicht nur die Nutzbarkeit der drei beteiligten Datenbanken erweitern sondern auch unser Verständnis von Strukturen der gesprochenen Sprache vertiefen. Als Datengrundlage für dieses Projekt dienen auf der deutschen Seite das FOLK-Korpus (Forschungs- und Lehrkorpus Gesprochenes Deutsch), auf der französischen Seite die Datenbank CLAPI (Corpus de LAngue Parlée en Interaction) und das ESLO corpus (Enquêtes sociolinguistiques à Orléans).

Kooperation:

SegCor ist ein von der Deutschen Forschungsgemeinschaft und der französischen ANR gefördertes Projekt. Im Projekt kooperiert die Abteilung Pragmatik des Instituts für Deutsche Sprache mit zwei französischen Partnern: dem ICAR (Interactions, Corpus, Apprentissages, Représentations) der Université de Lyon und dem LLL (Laboratoire Ligérien de Linguistique) der Université d’Orleans.

Publikationen:

Eine vorläufige Version der Annotations- und Segmentierungsguidelines nach syntaktischen Gesichtspunkten, basierend auf dem topologischen Feldermodell, finden sie hier: PDF

Westpfahl, Swantje; Gorisch, Jan (2018): A Syntax-Based Scheme for the Annotation and Segmentation of German Spoken Language Interactions. In: Proceedings of the Joint Workshop on Linguistic Annotation, Multiword Expressions and Constructions (LAW-MWE-CxG-2018), S. 109-120. Workshop at COLING 2018. Santa Fe, New Mexico, 25.-26.08.2018. PDF

Schmidt, Thomas; Westpfahl, Swantje (2018): A Study on Gaps and Syntactic Boundaries in Spoken Interaction. In: Proceedings of KONVENS 2018. Wien, Austria, 19.-21.09.2018. PDF