Korpora der geschriebenen Sprache
Verfügbarkeit
Der weitaus größte Teil von DeReKo kann für nicht-kommerzielle Zwecke kostenlos mit Hilfe von COSMAS II durchsucht und analysiert werden. Zum Download dürfen wir allerdings aufgrund urheberrechtlicher Bestimmungen und vertraglicher Vereinbarungen mit den Rechteinhabern bedauerlicherweise nur einige Teilkorpora anbieten. Siehe auch FAQ: "Gibt es Bedingungen, unter denen Ausnahmen möglich sind?"
Mit Lizenzvereinbarung
Für die wissenschaftliche Nutzung ist es dem IDS gestattet, nach Unterzeichnung einer Lizenzvereinbarung, folgende Korpora der geschriebenen Sprache kostenlos abzugeben:
Bitte schicken Sie bei Interesse eine Anfrage per E-Mail an Frau Petra Brecht mit einer kurzen Begründung, wozu Sie die Daten im TEI-XML-Format benötigen und warum Recherchen in DeReKo mit COSMAS II bzw. KorAP für Ihre Zwecke nicht ausreichen.
Download-Server
Außerdem stehende folgende Korpora jeweils unter der CC-BY-SA-Lizenz zum Download zu Verfügung
- Reden und Interviews-Korpus (rei)
- Wikipedia-Korpora
Aufbereitung 2011 in Kooperation mit dem Projekt EuroGr@mm [1],
Aufbereitung 2013 und 2015 in Kooperation mit dem Programmbereich Forschungsinfrastrukturen [2].
Aufbereitung 2017 durch den Programmbereich Korpuslinguistik.
Jahr | WP-Teilkorpus | I5 | WikiXML | TreeTagger Standoff |
2011 | Artikel | wpd11.xces.bz2 | -/- | -/- |
Artikeldiskussionen | wdd11.xces.bz2 | |||
2013 | Artikel | wpd13.i5.xml.bz2 | dewikixml-20130728-articles.tar.gz | wpd13.tt.xml.bz2 |
Artikeldiskussionen | wdd13.i5.xml.bz2 | dewikixml-20130728-discussions.tar.gz | wdd13.tt.xml.bz2 | |
Artikel-Sample | wpd13_sample.i5.xml.bz2 | -/- | -/- | |
Artikeldiskussionen-Sample | wdd13_sample.i5.xml.bz2 | |||
2015 | Artikel | wpd15.i5.xml.bz2 | wpd15.wikixml.tar.gz | wpd15.tt.xml.bz2 |
Artikeldiskussionen | wdd15.i5.xml.bz2 | wdd15.wikixml.tar.gz | wdd15.tt.xml.bz2 | |
Nutzerdiskussionen | wud15.i5.xml.bz2 | wud15.wikixml.tar.gz | wud15.tt.xml.bz2 | |
Artikel-Sample | wpd15_sample.i5.xml.bz2 | -/- | -/- | |
Artikeldiskussionen-Sample | wdd15_sample.i5.xml.bz2 | |||
Nutzerdiskussionen-Sample | wud15_sample.i5.xml.bz2 | |||
2017 | Artikel | wpd17.i5.xml.bz2 | ||
Artikeldiskussionen | wdd17.i5.xml.bz2 | |||
Nutzerdiskussionen | wud17.i5.xml.bz2 | |||
Redundanzdiskussionen | wrd17.i5.xml.bz2 |
Artikel | Artikeldiskussionen | |
Französisch | frwiki-20130904-articles.i5.bz2 | frwiki-20130904-discussions.i5.bz2 |
Ungarisch | huwiki-20140503-articles.i5.bz2 | huwiki-20140503-discussions.i5.bz2 |
Norwegisch | nowiki-20140512-articles.i5.bz2 | nowiki-20140512-discussions.i5.bz2 |
Italienisch | itwiki-20130508-articles.i5.bz2 | itwiki-20130508-discussions.i5.bz2 |
Polnisch | plwiki-20140503-articles.i5.bz2 | plwiki-20140503-discussions.i5.bz2 |
Literatur
[1] Noah Bubenhofer, Stefanie Haupt, Horst Schwinn
(2011): A Comparable Corpus of the Wikipedia: From Wiki Syntax to POS Tagged
XML. Hamburg Working Paper in Multilingualism, 96 B
[2] Eliza Margaretha, Harald Lüngen (2014): Building
linguistic corpora from Wikipedia articles and discussions. In:
Journal for Language Technologie
and Computational Linguistics (JLCL) 2/2014
Tools
Kontakt:
<korpuslinguistik@ids-...>
Leitung:
Dr. Marc Kupietz <kupietz@ids-...>
Wissenschaftliche Mitarbeiter:
Cyril Belica <belica@ids-...>
Dr. Harald Lüngen <luengen@ids-...>
Rainer Perkuhn <perkuhn@ids-...>
Kooperationen:
siehe hier
Ehemalige am Korpusaufbau beteiligte Mitarbeiter des IDS:
siehe hier
Studentische Hilfskräfte:
- Caroline Iliadi
- Ines Pisetta