Korpora der geschriebenen Sprache

Verfügbarkeit

Der weitaus größte Teil von DeReKo kann für nicht-kommerzielle Zwecke kostenlos mit Hilfe von COSMAS II genutzt werden.

Mit Lizenzvereinbarung

Für die wissenschaftliche Nutzung ist es dem IDS gestattet, nach Unterzeichnung einer Lizenzvereinbarung, folgende Korpora der geschriebenen Sprache kostenlos abzugeben:

Bitte schicken Sie bei Interesse eine Anfrage per E-Mail an Frau Petra Brecht mit einer kurzen Begründung, wozu Sie die Daten im TEI-XML-Format benötigen und warum Recherchen in DeReKo mit COSMAS II bzw. KorAP für Ihre Zwecke nicht ausreichen.

Download-Server

  • Reden und Interviews-Korpus (rei)
  • Wikipedia-Korpora
    Aufbereitung 2011 in Kooperation mit dem Projekt EuroGr@mm [1],
    Aufbereitung 2013 und 2015 in Kooperation mit dem Programmbereich Forschungsinfrastrukturen [2].
    Aufbereitung 2017 durch den Programmbereich Korpuslinguistik.
Deutschsprachige Wikipedia - Verfügbare Files 2011-2017 (Encoding ISO-8859-1)
Jahr WP-Teilkorpus I5 WikiXML TreeTagger
Standoff
2011 Artikel wpd11.xces.bz2 -/- -/-
Artikeldiskussionen wdd11.xces.bz2
2013 Artikel wpd13.i5.xml.bz2 dewikixml-20130728-articles.tar.gz wpd13.tt.xml.bz2
Artikeldiskussionen wdd13.i5.xml.bz2 dewikixml-20130728-discussions.tar.gz wdd13.tt.xml.bz2
Artikel-Sample wpd13_sample.i5.xml.bz2 -/- -/-
Artikeldiskussionen-Sample wdd13_sample.i5.xml.bz2
2015 Artikel wpd15.i5.xml.bz2 wpd15.wikixml.tar.gz wpd15.tt.xml.bz2
Artikeldiskussionen wdd15.i5.xml.bz2 wdd15.wikixml.tar.gz wdd15.tt.xml.bz2
Nutzerdiskussionen wud15.i5.xml.bz2 wud15.wikixml.tar.gz wud15.tt.xml.bz2
Artikel-Sample wpd15_sample.i5.xml.bz2 -/- -/-
Artikeldiskussionen-Sample wdd15_sample.i5.xml.bz2
Nutzerdiskussionen-Sample wud15_sample.i5.xml.bz2
2017 Artikel wpd17.i5.xml.bz2
Artikeldiskussionen wdd17.i5.xml.bz2
Nutzerdiskussionen wud17.i5.xml.bz2
Redundanzdiskussionen wrd17.i5.xml.bz2
Fremdsprachige Wikipedia 2013 - Verfügbare Files (Format I5, Encoding U8)
  Artikel Artikeldiskussionen
Französisch frwiki-20130904-articles.i5.bz2 frwiki-20130904-discussions.i5.bz2
Ungarisch huwiki-20140503-articles.i5.bz2 huwiki-20140503-discussions.i5.bz2
Norwegisch nowiki-20140512-articles.i5.bz2 nowiki-20140512-discussions.i5.bz2
Italienisch itwiki-20130508-articles.i5.bz2 itwiki-20130508-discussions.i5.bz2
Polnisch plwiki-20140503-articles.i5.bz2 plwiki-20140503-discussions.i5.bz2
Fremdsprachige Wikipedia 2015 - Verfügbare Files (Format I5, Encoding U8)
  Artikel Artikeldiskussionen Nutzerdiskussionen
English enwiki-20150808-article.i5.utf8.xml.bz2 enwiki-20150808-talk.i5.utf8.xml.bz2 enwiki-20150808-user-talk.i5.utf8.xml.bz2
Französisch frwiki-20150808-article.i5.utf8.xml.bz2 frwiki-20150808-talk.i5.utf8.xml.bz2 frwiki-20150808-user-talk.i5.utf8.xml.bz2
Ungarisch huwiki-20150807-article.i5.utf8.xml.bz2 huwiki-20150807-talk.i5.utf8.xml.bz2 huwiki-20150807-user-talk.i5.utf8.xml.bz2
Norwegisch nowiki-20150807-article.i5.utf8.xml.bz2 nowiki-20150807-talk.i5.utf8.xml.bz2 nowiki-20150807-user-talk.i5.utf8.xml.bz2
Spanisch eswiki-20150808-article.i5.utf8.xml.bz2 eswiki-20150808-talk.i5.utf8.xml.bz2 eswiki-20150808-user-talk.i5.utf8.xml.bz2
Kroatisch hrwiki-20150807-article.i5.utf8.xml.bz2 hrwiki-20150807-talk.i5.utf8.xml.bz2 hrwiki-20150807-user-talk.i5.utf8.xml.bz2
Italienisch itwiki-20150808-article.i5.utf8.xml.bz2 itwiki-20150808-talk.i5.utf8.xml.bz2 itwiki-20150808-user-talk.i5.utf8.xml.bz2
Polnisch plwiki-20150808-article.i5.utf8.xml.bz2 plwiki-20150808-talk.i5.utf8.xml.bz2 plwiki-20150808-user-talk.i5.utf8.xml.bz2

Literatur

[1] Noah Bubenhofer, Stefanie Haupt, Horst Schwinn (2011): A Comparable Corpus of the Wikipedia: From Wiki Syntax to POS Tagged XML.

[2] Eliza Margaretha, Harald Lüngen (2014): Building linguistic corpora from Wikipedia articles and discussions. In:  Journal for Language Technologie and Computational Linguistics (JLCL) 2/2014

Tools

zum Überblick

Kontakt:
    <korpuslinguistik@ids-...>
 
Leitung:
    Dr. Marc Kupietz <kupietz@ids-...>
 
Wissenschaftliche Mitarbeiter:
    Dr. Harald Lüngen <luengen@ids-...>
    Rainer Perkuhn <perkuhn@ids-...>
 
Kooperationen:
    siehe hier
 
Ehemalige am Korpusaufbau beteiligte Mitarbeiter des IDS:
    siehe hier
 
Studentische Hilfskräfte:

  • Caroline Iliadi
  • Ines Pisetta