POS für(s) FOLK

Startseite

Organisation

Pragmatik

Abgeschlossene Projekte

POS für(s) FOLK

POS für(s) FOLK - Entwicklung eines automatisierten Part-of-Speech-Tagging von spontansprachlichen Daten

Im Rahmen des Dissertationsprojekts von <link prag personal westpfahl.html>Swantje Westpfahl "POS für(s) FOLK - Entwicklung eines automatisierten Part-of-Speech-Tagging von spontansprachlichen Daten" wurde das FOLK Korpus mit Part-of-Speech-Tags annotiert.
State of the Art Tagger wie beispielsweise der Treetagger für das Deutsche mit dem STTS-Tagset performen nur mit einer Genauigkeit zwischen 60% und 80% auf Transkripten aus dem FOLK Korpus.
Basierend auf einer wissenschaftlichen Analyse der strukturellen Unterschiede zwischen schriftsprachlichen Daten und transkribierten Gesprochene-Sprache-Daten wurden bereits bestehende Tools zur Wortartenannotation von deutschen Texten angepasst. Durch Anpassung des Tagsets STTS an typische gesprochensprachliche Phänomene und Erstellen eines Goldstandards für spontansprachliche Daten wurde die Grundlage für eine automatisierte POS-Annotation gelegt. Die Annotationen in FOLK sind nun mit einer Präzision von in etwa 95 Prozent über die Datenbank für Gesprochenes Deutsch (DGD) abrufbar.
Die Anpassung des Tagsets erfolgt in Kooperation mit der AG "Gesprächspartikeln" des STTS-Workshop "Das STTS-Tagset für Wortartentagging: Stand und Perspektiven" und <link gra personal bluehdorn _blank>Prof. Dr. Hardarik Blühdorn der Abteilung Grammatik des IDS Mannheim. Der Goldstandard und das Parameter-File für den TreeTagger sind auf Anfrage verfügbar und werden nach der Publikation der Dissertation hier veröffentlicht. Die Guidelines zur Annotation mit dem angepassten Tagset STTS 2.0 finden sich hier. Publikationen:

Westpfahl, Swantje / Schmidt, Thomas / Jonietz, Jasmin / Borlinghaus, Anton (2017): STTS 2.0. Guidelines für die Annotation von POS-Tags für Transkripte gesprochener Sprache in Anlehnung an das Stuttgart Tübingen Tagset (STTS). Arbeitspapier. Mannheim: Institut für Deutsche Sprache. PDF

Westpfahl, Swantje (2017): Diskursmarker aus korpuslinguistischer Sicht – POS-Annotation von Diskursmarkern in FOLK. In: Blühdorn, Hardarik / Deppermann, Arnulf / Helmer, Henrike / Spranz-Fogasy, Thomas (Hg.): Diskursmarker im Deutschen. Reflexionen und Analysen Göttingen: Verlag für Gesprächsforschung, 285-309. PDF

Westpfahl, Swantje / Schmidt, Thomas (2016): FOLK-Gold – A GOLD standard for Part-of-Speech-Tagging of Spoken German. In: Proceedings of the Tenth Conference on International Language Resources and Evaluation (LREC’16), Portorož, Slovenia. Paris: European Language Resources Association (ELRA), pp. 1493-1499. PDF

Beißwenger, Michael; Bartz, Thomas; Storrer, Angelika; Westpfahl, Swantje (2015): Tagset und Richtlinie für das Part-of-Speech-Tagging von Sprachdaten aus Genres internetbasierter Kommunikation. Guideline document from the Empirikom shared task on automatic linguistic annotation of internet-based communication (EmpiriST 2015). Online verfügbar unter https://docs.google.com/viewer?a=v&pid=sites&srcid=ZGVmYXVsdGRvbWFpbnxlbXBpcmlzdDIwMTV8Z3g6OWQ0YWNmZWE5OTUzMjE, zuletzt aktualisiert am 13.09.2015, zuletzt geprüft am 04.02.2016.

Westpfahl, Swantje (2014): STTS 2.0? Improving the Tagset for the Part-of-Speech-Tagging of German Spoken Data. In: Lori Levin und Manfred Stede (eds.): Proceedings of LAW VIII - The 8th Linguistic Annotation Workshop. Dublin, Ireland: Association for Computational Linguistics and Dublin City University, pp. 1–10. PDF

Westpfahl, Swantje/Schmidt, Thomas (2013): POS für(s) FOLK – Part of Speech Tagging des Forschungs- und Lehrkorpus Gesprochenes Deutsch. In: Journal for Language Technology and Computational Linguistics, H. 1, S. 139-156. PDF

Hilfskräfte:

Anton Borlinghaus
Jasmin Jonietz
Mira Heilmann

Betreuer der Arbeit sind:

Kooperationspartner sind:

Thomas Bartz, Mitarbeiter im BMBF-Verbundprojekt: "Korpus-basierte linguistische Recherche und Analyse mit Hilfe von Data-Mining" (KobRA) (Universität Dortmund)
Prof. Dr. Michael Beißwenger, Professor für Germanistische Linguistik und Sprachdidaktik an der Universität Duisburg-Essen
Prof. Dr. Hardarik Blühdorn, wissenschaftlicher Angestellter in der Abteilung Grammatik des IDS
Dr. Hagen Hirschmann, Mitarbeiter am Institut für deutsche Sprache und Linguistik der Humboldt-Universität zu Berlin
Dr. Ines Rehbein, Forschungsgruppenleiterin am Leibniz ScienceCampus "Empirical Linguistics and Computational Language Modeling" des Instituts für Deutsche Sprache und der Universität Heidelberg
Prof. Dr. Angelika Storrer, Leiterin des Lehrstuhls Germanistische Linguistik der Universität Mannheim
Prof. Dr. Carola Trips, Lehrstuhl Anglistik IV der Universität Mannheim
Prof. Dr. Heike Zinsmeister, Professorin für Linguistik des Deutschen/Korpuslinguistik der Universität Hamburg

POS für(s) FOLK - Entwicklung eines automatisierten Part-of-Speech-Tagging von spontansprachlichen Daten

Organisationsstruktur

Informationen

Schnelleinstieg

Kontakt

Social Media