Korpora der geschriebenen Sprache
Verfügbarkeit
Der weitaus größte Teil von DeReKo kann für nicht-kommerzielle Zwecke kostenlos mit Hilfe von COSMAS II genutzt werden.
Mit Lizenzvereinbarung
Für die wissenschaftliche Nutzung ist es dem IDS gestattet, nach Unterzeichnung einer Lizenzvereinbarung, folgende Korpora der geschriebenen Sprache kostenlos abzugeben:
Bitte schicken Sie bei Interesse eine Anfrage per E-Mail an Frau Petra Brecht mit einer kurzen Begründung, wozu Sie die Daten im TEI-XML-Format benötigen und warum Recherchen in DeReKo mit COSMAS II bzw. KorAP für Ihre Zwecke nicht ausreichen.
Download-Server
- Reden und Interviews-Korpus (rei)
- Wikipedia-Korpora
Aufbereitung 2011 in Kooperation mit dem Projekt EuroGr@mm [1],
Aufbereitung 2013 und 2015 in Kooperation mit dem Programmbereich Forschungsinfrastrukturen [2].
Aufbereitung 2017 durch den Programmbereich Korpuslinguistik.
Jahr | WP-Teilkorpus | I5 | WikiXML | TreeTagger Standoff |
2011 | Artikel | wpd11.xces.bz2 | -/- | -/- |
Artikeldiskussionen | wdd11.xces.bz2 | |||
2013 | Artikel | wpd13.i5.xml.bz2 | dewikixml-20130728-articles.tar.gz | wpd13.tt.xml.bz2 |
Artikeldiskussionen | wdd13.i5.xml.bz2 | dewikixml-20130728-discussions.tar.gz | wdd13.tt.xml.bz2 | |
Artikel-Sample | wpd13_sample.i5.xml.bz2 | -/- | -/- | |
Artikeldiskussionen-Sample | wdd13_sample.i5.xml.bz2 | |||
2015 | Artikel | wpd15.i5.xml.bz2 | wpd15.wikixml.tar.gz | wpd15.tt.xml.bz2 |
Artikeldiskussionen | wdd15.i5.xml.bz2 | wdd15.wikixml.tar.gz | wdd15.tt.xml.bz2 | |
Nutzerdiskussionen | wud15.i5.xml.bz2 | wud15.wikixml.tar.gz | wud15.tt.xml.bz2 | |
Artikel-Sample | wpd15_sample.i5.xml.bz2 | -/- | -/- | |
Artikeldiskussionen-Sample | wdd15_sample.i5.xml.bz2 | |||
Nutzerdiskussionen-Sample | wud15_sample.i5.xml.bz2 | |||
2017 | Artikel | wpd17.i5.xml.bz2 | ||
Artikeldiskussionen | wdd17.i5.xml.bz2 | |||
Nutzerdiskussionen | wud17.i5.xml.bz2 | |||
Redundanzdiskussionen | wrd17.i5.xml.bz2 |
Artikel | Artikeldiskussionen | |
Französisch | frwiki-20130904-articles.i5.bz2 | frwiki-20130904-discussions.i5.bz2 |
Ungarisch | huwiki-20140503-articles.i5.bz2 | huwiki-20140503-discussions.i5.bz2 |
Norwegisch | nowiki-20140512-articles.i5.bz2 | nowiki-20140512-discussions.i5.bz2 |
Italienisch | itwiki-20130508-articles.i5.bz2 | itwiki-20130508-discussions.i5.bz2 |
Polnisch | plwiki-20140503-articles.i5.bz2 | plwiki-20140503-discussions.i5.bz2 |
Literatur
[2] Eliza Margaretha, Harald Lüngen (2014): Building linguistic corpora from Wikipedia articles and discussions. In: Journal for Language Technologie and Computational Linguistics (JLCL) 2/2014
Tools
Kontakt:
<korpuslinguistik@ids-...>
Leitung:
Dr. Marc Kupietz <kupietz@ids-...>
Wissenschaftliche Mitarbeiter:
Dr. Harald Lüngen <luengen@ids-...>
Rainer Perkuhn <perkuhn@ids-...>
Kooperationen:
siehe hier
Ehemalige am Korpusaufbau beteiligte Mitarbeiter des IDS:
siehe hier
Studentische Hilfskräfte:
- Caroline Iliadi
- Ines Pisetta