Development and Maintenance of Contemporary Written Corpora

The world's largest collection of German-language corpora as an empirical basis for linguistic research

The Mannheim German Reference Corpus (DeReKo)

The Corpora of Contemporary Written German at the IDS

  • constitute the world's largest linguistically motivated collection (over 61,4 billion words as of January, 2025) of electronic corpora with written German texts from today and the recent past
  • can be accessed via COSMAS II and KorAP free of charge
  • contain belletristic, scientific and popular scientific texts, a large number of newspaper texts as well as a wide range of additional text types. They are being developed continuously
  • are being acquired aiming at maximizing size and diversity, allowing the creation of virtual corpora while using COSMAS II and KorAP. These can be either representative corpora or corpora designed for particular research question
Status 03/2022

Current DeReKo Extensions

Planned Extensions

  • genre fiction

Recent publications on DeReKo

  • Diewald, Nils/Gierke, Marco/Kupietz, Marc/Lüngen, Harald (2024): Das Orthografische Kernkorpus (OKK) in DeReKo. Zusammensetzung, Analyse- und Zugriffsmöglichkeiten über KorAP. In: Krome, Sabine/Habermann, Mechthild/Lobin, Henning/Wöllstein, Angelika (Hrsg.): Orthographie in Wissenschaft und Gesellschaft. Schriftsystem – Norm – Schreibgebrauch. Jahrbuch des Instituts für Deutsche Sprache 2023. (= Jahrbuch des Instituts für Deutsche Sprache 2023). Berlin/Boston: de Gruyter, 2024. S. 329

  • Kupietz, Marc/Lüngen, Harald/Witt, Andreas (2023): DeReKo im Kontext deutschsprachiger Gegenwartskorpora: Perspektiven – Ziele – Visionen. In: Beißwenger, Michael/Gredel, Eva/Lemnitzer, Lothar/Schneider, Roman (Hrsg.): Korpusgestützte Sprachanalyse. Grundlagen, Anwendungen und Analysen. (= Studien zur Deutschen Sprache 88). Tübingen: Narr, 2023. S. 61-77.

  • Kupietz, Marc/Lüngen, Harald/Diewald, Nils (2023): Das Gesamtkonzept des Deutschen Referenzkorpus DeReKo. Vom Design bis zur Verwendung und darüber hinaus. In: Deppermann, Arnulf/Fandrych, Christian/Kupietz, Marc/Schmidt, Thomas (Hrsg.): Korpora in der germanistischen Sprachwissenschaft. Mündlich, schriftlich, multimedial. Jahrbuch des Instituts für Deutsche Sprache 2022. (= Jahrbuch des Instituts für Deutsche Sprache 2022). Berlin/Boston: de Gruyter, 2023. S. 1-28.

  • Bański, Piotr/Diewald, Nils/Kupietz, Marc/Trawiński, Beata (2023): Applying the newly extended European Reference Corpus EuReCo. Pilot studies of light-verb constructions in German, Romanian, Hungarian and Polish. In: Trawiński, Beata/Kupietz, Marc/Proost, Kristel/Zinken, Jörg (Hrsg.): 10th International Contrastive Linguistics Conference (ICLC-10), 18-21 July, 2023, Mannheim, Germany. Book of abstracts. Mannheim: IDS-Verlag, 2023. S. 274-276.

  • Kupietz, Marc/Trawiński, Beata (2022)Neue Perspektiven für kontrastive Korpuslinguistik: Das Europäische Referenzkorpus EuReCo. In: Auteri, Laura/Barrale, Natascia/Di Bella, Arianna/Hoffmann, Sabine (Hrsg.): Wege der Germanistik in transkultureller Perspektive. Akten des XIV. Kongresses der Internationalen Vereinigung für Germanistik (IVG). (= Jahrbuch für Internationale Germanistik – Beihefte 6). Bern: Lang, 2022. S. 417-440.

  • Čermáková, Anna/Jantunen, Jarmo/Jauhiainen, Tommi/Kirk, John/Křen, Michal/Kupietz, Marc/Uí Dhonnchadha, Elaine (2021): The International Comparable Corpus: Challenges in building multilingual spoken and written comparable corpora. In: Research in Corpus Linguistics 9(1). Special issue "Challenges of combining structured and unstructured data in corpus development". Murcia: Spanish Association for Corpus Linguistics, 2021. S. 89-103.

  • Trawiński, Beata/Kupietz, Marc (2021): Von monolingualen Korpora über Parallel- und Vergleichskorpora zum Europäischen Referenzkorpus EuReCo. In: Lobin, Henning/Witt, Andreas/Wöllstein, Angelika (Hrsg.): Sprachpolitisch, grammatisch, methodisch. Jahrbuch des Instituts für Deutsche Sprache 2020. Berlin/Boston: de Gruyter, 2021. S. 209-234.

  • Kamocki, Paweł/Hannesschläger, Vanessa/Hoorn, Esther/Kelli, Aleksei/Kupietz, Marc/Lindén, Krister/Puksas, Andrius (2021): Legal issues related to the use of twitter data in language research. In: Monachini, Monica/Eskevich, Maria (Hrsg.): Proceedings of CLARIN Annual Conference 2021. 27 – 29 September 2021, Virtual Edition. Utrecht: CLARIN, 2021. S. 150-153.

  • Lüngen, Harald/Kupietz, Marc (2020): IBK- und Social Media-Korpora am Leibniz-Institut für Deutsche Sprache. In: Marx, Konstanze/Lobin, Henning/Schmidt, Axel (Hrsg.): Interaktiv, multimodal, vielfältig. Jahrbuch des Instituts für Deutsche Sprache 2019. Berlin/Boston: de Gruyter, 2020. S. 319-344.

  • Kupietz, Marc/Lüngen, Harald/Kamocki, Paweł/Witt, Andreas (2018): The German Reference Corpus DeReKo: New Developments – New Opportunities. In: Calzolari, Nicoletta/Choukri, Khalid/Cieri, Christopher/Declerck, Thierry/Goggi, Sara/Hasida, Koiti/Isahara, Hitoshi/Maegaard, Bente/Mariani, Joseph/Mazo, Hélène/Moreno, Asuncion/Odijk, Jan/Piperidis, Stelios/Tokunaga, Takenobu (Hrsg.): Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). Miyazaki: European Language Resources Association (ELRA), 2018. S. 4353-4360.

  • Kupietz, Marc/Lüngen, Harald (2014): Recent Developments in DeReKo. In: Calzolari, Nicoletta et al. (eds.): Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14). Reykjavik: ELRA, 2378-2385.  http://www.lrec-conf.org/proceedings/lrec2014/pdf/842_Paper.pdf

  • Kupietz, Marc / Belica, Cyril / Keibel, Holger / Witt, Andreas (2010): The German Reference Corpus DeReKo: A primordial sample for linguistic research. In: Calzolari, Nicoletta et al. (eds.): Proceedings of the 7th conference on International Language Resources and Evaluation (LREC 2010). Valletta, Malta: European Language Resources Association (ELRA), 1848-1854.   http://www.lrec-conf.org/proceedings/lrec2010/pdf/414_Paper.pdf

Kontakt:
    <korpuslinguistik(at)ids-...>
 
Leitung:
    Dr. Harald Lüngen <luengen(at)ids-...>
 
Wissenschaftliche Mitarbeiter:

    Dr. Marc Kupietz <kupietz(at)ids-...>
    Rainer Perkuhn <perkuhn(at)ids-...>
 
Kooperationen:
    siehe hier
 
Ehemalige am Korpusaufbau beteiligte Mitarbeiter des IDS:
    siehe hier
 
Studentische Hilfskräfte:

  • Nicolas Arnold