Ausbau und Pflege der Korpora geschriebener Gegenwartssprache

Die weltweit größte Sammlung deutschsprachiger Korpora als empirische Basis für die linguistische Forschung

Das Deutsche Referenzkorpus – DeReKo

Die Korpora geschriebener Gegenwartssprache des IDS

  • bilden mit 53 Milliarden Wörtern (Stand 08.03.2022) die weltweit größte linguistisch motivierte Sammlung elektronischer Korpora mit geschriebenen deutschsprachigen Texten aus der Gegenwart und der neueren Vergangenheit.
  • sind über COSMAS II und KorAP kostenlos abfragbar
  • enthalten belletristische, wissenschaftliche und populärwissenschaftliche Texte, eine große Zahl von Zeitungstexten sowie eine breite Palette weiterer Textarten und werden kontinuierlich weiterentwickelt.
  • werden im Hinblick auf Umfang, Variabilität, Qualität und Aktualität akquiriert und erlauben in der Nutzungsphase über COSMAS II und v.a. KorAP die Komposition virtueller Korpora, die repräsentativ oder auf spezielle Aufgabenstellungen zugeschnitten sind.
  • enthalten ausschließlich urheberrechtlich abgesichertes Material.
  • Details zum DeReKo-Inhalt siehe Archiv
Kontakt:
<korpuslinguistik@ids-...>
Stand 03/2022

Aktuelle DeReKo-Erweiterungen

  • Mit Release DeReKo-2022-I sind folgende Neuzugänge hinzugekommen:
    • NottDeuYTsch: YouTube-Kommentare-Korpus von Louis Cotgrove – nur IDS-intern zugänglich (ndy)
    • Twitter-Sample-Korpus  – nur IDS-intern zugänglich (twi21)
    • Gingko: Geschriebenes Ingenieurwissenschaftliches Korpus der U Leipzig
      • Automobiltechnische Zeitschrift, Jahrgänge 2007-2016 (atz)
      • Motortechnische Zeitschrift, Jahrgänge 2007-2016 (mtz)

Geplante Erweiterungen

  • Schemaliteratur
  • Projektberichte
  • Erste Transkripte aus FOLK/DGD
  • MoCoDa2-Korpus
  • Wissenschafts- und Fachliteratur
    • ATZ und MTZ Jahrgänge ab 2017

Aktuelle Veröffentlichungen zu DeReKo

  • Čermáková, Anna/Jantunen, Jarmo/Jauhiainen, Tommi/Kirk, John/Křen, Michal/Kupietz, Marc/Uí Dhonnchadha, Elaine (2021): The International Comparable Corpus: Challenges in building multilingual spoken and written comparable corpora. In: Research in Corpus Linguistics 9(1). Special issue "Challenges of combining structured and unstructured data in corpus development". Murcia: Spanish Association for Corpus Linguistics, 2021. S. 89-103.

  • Trawiński, Beata/Kupietz, Marc (2021): Von monolingualen Korpora über Parallel- und Vergleichskorpora zum Europäischen Referenzkorpus EuReCo. In: Lobin, Henning/Witt, Andreas/Wöllstein, Angelika (Hrsg.): Sprachpolitisch, grammatisch, methodisch. Jahrbuch des Instituts für Deutsche Sprache 2020. Berlin/Boston: de Gruyter, 2021. S. 209-234.

  • Kamocki, Paweł/Hannesschläger, Vanessa/Hoorn, Esther/Kelli, Aleksei/Kupietz, Marc/Lindén, Krister/Puksas, Andrius (2021): Legal issues related to the use of twitter data in language research. In: Monachini, Monica/Eskevich, Maria (Hrsg.): Proceedings of CLARIN Annual Conference 2021. 27 – 29 September 2021, Virtual Edition. Utrecht: CLARIN, 2021. S. 150-153.

  • Lüngen, Harald/Kupietz, Marc (2020): IBK- und Social Media-Korpora am Leibniz-Institut für Deutsche Sprache. In: Marx, Konstanze/Lobin, Henning/Schmidt, Axel (Hrsg.): Interaktiv, multimodal, vielfältig. Jahrbuch des Instituts für Deutsche Sprache 2019. Berlin/Boston: de Gruyter, 2020. S. 319-344.

  • Kupietz, Marc/Lüngen, Harald/Kamocki, Paweł/Witt, Andreas (2018): The German Reference Corpus DeReKo: New Developments – New Opportunities. In: Calzolari, Nicoletta/Choukri, Khalid/Cieri, Christopher/Declerck, Thierry/Goggi, Sara/Hasida, Koiti/Isahara, Hitoshi/Maegaard, Bente/Mariani, Joseph/Mazo, Hélène/Moreno, Asuncion/Odijk, Jan/Piperidis, Stelios/Tokunaga, Takenobu (Hrsg.): Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). Miyazaki: European Language Resources Association (ELRA), 2018. S. 4353-4360.

  • Kupietz, Marc/Lüngen, Harald (2014): Recent Developments in DeReKo. In: Calzolari, Nicoletta et al. (eds.): Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14). Reykjavik: ELRA, 2378-2385.  

  • Kupietz, Marc / Belica, Cyril / Keibel, Holger / Witt, Andreas (2010): The German Reference Corpus DeReKo: A primordial sample for linguistic research. In: Calzolari, Nicoletta et al. (eds.): Proceedings of the 7th conference on International Language Resources and Evaluation (LREC 2010). Valletta, Malta: European Language Resources Association (ELRA), 848-1854.  http://www.lrec-conf.org/proceedings/lrec2010/pdf/414_Paper.pdf

  • Kupietz, Marc / Keibel, Holger (2009): The Mannheim German Reference Corpus (DeReKo) as a basis for empirical linguistic research. In Minegishi, Makoto / Kawaguchi, Yuji (Eds.): Working Papers in Corpus-based Linguistics and Language Education, No. 3. Tokyo: Tokyo University of Foreign Studies (TUFS), 53-59.   http://cblle.tufs.ac.jp/assets/files/publications/working_papers_03/section/053-059.pdf

Kontakt:
    <korpuslinguistik(at)ids-...>
 
Leitung:
    Dr. Marc Kupietz <kupietz(at)ids-...>
 
Wissenschaftliche Mitarbeiter:

    Cyril Belica <belica(at)ids-...>
    Dr. Harald Lüngen <luengen(at)ids-...>
    Rainer Perkuhn <perkuhn(at)ids-...>
 
Kooperationen:
    siehe hier
 
Ehemalige am Korpusaufbau beteiligte Mitarbeiter des IDS:
    siehe hier
 
Studentische Hilfskräfte:

  • Ines Pisetta