POS für(s) FOLK - Entwicklung eines automatisierten Part-of-Speech-Tagging von spontansprachlichen Daten
Im Rahmen des Dissertationsprojekts von <link prag personal westpfahl.html>Swantje Westpfahl "POS für(s) FOLK - Entwicklung eines automatisierten Part-of-Speech-Tagging von spontansprachlichen Daten" wurde das FOLK Korpus mit Part-of-Speech-Tags annotiert.
State of the Art Tagger wie beispielsweise der Treetagger für das Deutsche mit dem STTS-Tagset performen nur mit einer Genauigkeit zwischen 60% und 80% auf Transkripten aus dem FOLK Korpus.
Basierend auf einer wissenschaftlichen Analyse der strukturellen Unterschiede zwischen schriftsprachlichen Daten und transkribierten Gesprochene-Sprache-Daten wurden bereits bestehende Tools zur Wortartenannotation von deutschen Texten angepasst. Durch Anpassung des Tagsets STTS an typische gesprochensprachliche Phänomene und Erstellen eines Goldstandards für spontansprachliche Daten wurde die Grundlage für eine automatisierte POS-Annotation gelegt. Die Annotationen in FOLK sind nun mit einer Präzision von in etwa 95 Prozent über die Datenbank für Gesprochenes Deutsch (DGD) abrufbar.
Die Anpassung des Tagsets erfolgt in Kooperation mit der AG "Gesprächspartikeln" des STTS-Workshop "Das STTS-Tagset für Wortartentagging: Stand und Perspektiven" und <link gra personal bluehdorn _blank>Prof. Dr. Hardarik Blühdorn der Abteilung Grammatik des IDS Mannheim. Der Goldstandard und das Parameter-File für den TreeTagger sind auf Anfrage verfügbar und werden nach der Publikation der Dissertation hier veröffentlicht. Die Guidelines zur Annotation mit dem angepassten Tagset STTS 2.0 finden sich hier. Publikationen:
State of the Art Tagger wie beispielsweise der Treetagger für das Deutsche mit dem STTS-Tagset performen nur mit einer Genauigkeit zwischen 60% und 80% auf Transkripten aus dem FOLK Korpus.
Basierend auf einer wissenschaftlichen Analyse der strukturellen Unterschiede zwischen schriftsprachlichen Daten und transkribierten Gesprochene-Sprache-Daten wurden bereits bestehende Tools zur Wortartenannotation von deutschen Texten angepasst. Durch Anpassung des Tagsets STTS an typische gesprochensprachliche Phänomene und Erstellen eines Goldstandards für spontansprachliche Daten wurde die Grundlage für eine automatisierte POS-Annotation gelegt. Die Annotationen in FOLK sind nun mit einer Präzision von in etwa 95 Prozent über die Datenbank für Gesprochenes Deutsch (DGD) abrufbar.
Die Anpassung des Tagsets erfolgt in Kooperation mit der AG "Gesprächspartikeln" des STTS-Workshop "Das STTS-Tagset für Wortartentagging: Stand und Perspektiven" und <link gra personal bluehdorn _blank>Prof. Dr. Hardarik Blühdorn der Abteilung Grammatik des IDS Mannheim. Der Goldstandard und das Parameter-File für den TreeTagger sind auf Anfrage verfügbar und werden nach der Publikation der Dissertation hier veröffentlicht. Die Guidelines zur Annotation mit dem angepassten Tagset STTS 2.0 finden sich hier. Publikationen:
- Westpfahl, Swantje / Schmidt, Thomas / Jonietz, Jasmin / Borlinghaus, Anton (2017): STTS 2.0. Guidelines für die Annotation von POS-Tags für Transkripte gesprochener Sprache in Anlehnung an das Stuttgart Tübingen Tagset (STTS). Arbeitspapier. Mannheim: Institut für Deutsche Sprache. PDF
- Westpfahl, Swantje (2017): Diskursmarker aus korpuslinguistischer Sicht – POS-Annotation von Diskursmarkern in FOLK. In: Blühdorn, Hardarik / Deppermann, Arnulf / Helmer, Henrike / Spranz-Fogasy, Thomas (Hg.): Diskursmarker im Deutschen. Reflexionen und Analysen Göttingen: Verlag für Gesprächsforschung, 285-309. PDF
- Westpfahl, Swantje / Schmidt, Thomas (2016): FOLK-Gold – A GOLD standard for Part-of-Speech-Tagging of Spoken German. In: Proceedings of the Tenth Conference on International Language Resources and Evaluation (LREC’16), Portorož, Slovenia. Paris: European Language Resources Association (ELRA), pp. 1493-1499. PDF
- Beißwenger, Michael; Bartz, Thomas; Storrer, Angelika; Westpfahl, Swantje (2015): Tagset und Richtlinie für das Part-of-Speech-Tagging von Sprachdaten aus Genres internetbasierter Kommunikation. Guideline document from the Empirikom shared task on automatic linguistic annotation of internet-based communication (EmpiriST 2015). Online verfügbar unter https://docs.google.com/viewer?a=v&pid=sites&srcid=ZGVmYXVsdGRvbWFpbnxlbXBpcmlzdDIwMTV8Z3g6OWQ0YWNmZWE5OTUzMjE, zuletzt aktualisiert am 13.09.2015, zuletzt geprüft am 04.02.2016.
- Westpfahl, Swantje (2014): STTS 2.0? Improving the Tagset for the Part-of-Speech-Tagging of German Spoken Data. In: Lori Levin und Manfred Stede (eds.): Proceedings of LAW VIII - The 8th Linguistic Annotation Workshop. Dublin, Ireland: Association for Computational Linguistics and Dublin City University, pp. 1–10. PDF
- Westpfahl, Swantje/Schmidt, Thomas (2013): POS für(s) FOLK – Part of Speech Tagging des Forschungs- und Lehrkorpus Gesprochenes Deutsch. In: Journal for Language Technology and Computational Linguistics, H. 1, S. 139-156. PDF
- Anton Borlinghaus
- Jasmin Jonietz
- Mira Heilmann
- Thomas Bartz, Mitarbeiter im BMBF-Verbundprojekt: "Korpus-basierte linguistische Recherche und Analyse mit Hilfe von Data-Mining" (KobRA) (Universität Dortmund)
- Prof. Dr. Michael Beißwenger, Professor für Germanistische Linguistik und Sprachdidaktik an der Universität Duisburg-Essen
- Prof. Dr. Hardarik Blühdorn, wissenschaftlicher Angestellter in der Abteilung Grammatik des IDS
- Dr. Hagen Hirschmann, Mitarbeiter am Institut für deutsche Sprache und Linguistik der Humboldt-Universität zu Berlin
- Dr. Ines Rehbein, Forschungsgruppenleiterin am Leibniz ScienceCampus "Empirical Linguistics and Computational Language Modeling" des Instituts für Deutsche Sprache und der Universität Heidelberg
- Prof. Dr. Angelika Storrer, Leiterin des Lehrstuhls Germanistische Linguistik der Universität Mannheim
- Prof. Dr. Carola Trips, Lehrstuhl Anglistik IV der Universität Mannheim
- Prof. Dr. Heike Zinsmeister, Professorin für Linguistik des Deutschen/Korpuslinguistik der Universität Hamburg