Ausbau und Pflege der Korpora geschriebener Gegenwartssprache

Die weltweit größte Sammlung deutschsprachiger Korpora als empirische Basis für die linguistische Forschung

Das Deutsche Referenzkorpus – DeReKo

Die Korpora geschriebener Gegenwartssprache des IDS

  • bilden mit 61,5 Milliarden Wörtern (Stand 31.01.2025) die weltweit größte linguistisch motivierte Sammlung elektronischer Korpora mit geschriebenen deutschsprachigen Texten aus der Gegenwart und der neueren Vergangenheit.
  • sind über COSMAS II und KorAP kostenlos abfragbar
  • enthalten belletristische, wissenschaftliche und populärwissenschaftliche Texte, eine große Zahl von Zeitungstexten sowie eine breite Palette weiterer Textarten und werden kontinuierlich weiterentwickelt.
  • werden im Hinblick auf Umfang, Variabilität, Qualität und Aktualität akquiriert und erlauben in der Nutzungsphase über COSMAS II und v.a. KorAP die Komposition virtueller Korpora, die repräsentativ oder auf spezielle Aufgabenstellungen zugeschnitten sind.
  • enthalten ausschließlich urheberrechtlich abgesichertes Material.
  • Details zum DeReKo-Inhalt siehe Archiv

Kontakt:

<korpuslinguistik@ids-...>

Stand 01/2025

Aktuelle DeReKo-Erweiterungen

Geplante Erweiterungen

  • Schemaliteratur

Aktuelle Veröffentlichungen zu DeReKo

  • Diewald, Nils/Gierke, Marco/Kupietz, Marc/Lüngen, Harald (2024): Das Orthografische Kernkorpus (OKK) in DeReKo. Zusammensetzung, Analyse- und Zugriffsmöglichkeiten über KorAP. In: Krome, Sabine/Habermann, Mechthild/Lobin, Henning/Wöllstein, Angelika (Hrsg.): Orthographie in Wissenschaft und Gesellschaft. Schriftsystem – Norm – Schreibgebrauch. Jahrbuch des Instituts für Deutsche Sprache 2023. (= Jahrbuch des Instituts für Deutsche Sprache 2023). Berlin/Boston: de Gruyter, 2024. S. 329

  • Kupietz, Marc/Lüngen, Harald/Witt, Andreas (2023): DeReKo im Kontext deutschsprachiger Gegenwartskorpora: Perspektiven – Ziele – Visionen. In: Beißwenger, Michael/Gredel, Eva/Lemnitzer, Lothar/Schneider, Roman (Hrsg.): Korpusgestützte Sprachanalyse. Grundlagen, Anwendungen und Analysen. (= Studien zur Deutschen Sprache 88). Tübingen: Narr, 2023. S. 61-77.

  • Kupietz, Marc/Lüngen, Harald/Diewald, Nils (2023): Das Gesamtkonzept des Deutschen Referenzkorpus DeReKo. Vom Design bis zur Verwendung und darüber hinaus. In: Deppermann, Arnulf/Fandrych, Christian/Kupietz, Marc/Schmidt, Thomas (Hrsg.): Korpora in der germanistischen Sprachwissenschaft. Mündlich, schriftlich, multimedial. Jahrbuch des Instituts für Deutsche Sprache 2022. (= Jahrbuch des Instituts für Deutsche Sprache 2022). Berlin/Boston: de Gruyter, 2023. S. 1-28.

  • Bański, Piotr/Diewald, Nils/Kupietz, Marc/Trawiński, Beata (2023): Applying the newly extended European Reference Corpus EuReCo. Pilot studies of light-verb constructions in German, Romanian, Hungarian and Polish. In: Trawiński, Beata/Kupietz, Marc/Proost, Kristel/Zinken, Jörg (Hrsg.): 10th International Contrastive Linguistics Conference (ICLC-10), 18-21 July, 2023, Mannheim, Germany. Book of abstracts. Mannheim: IDS-Verlag, 2023. S. 274-276.

  • Kupietz, Marc/Trawiński, Beata (2022)Neue Perspektiven für kontrastive Korpuslinguistik: Das Europäische Referenzkorpus EuReCo. In: Auteri, Laura/Barrale, Natascia/Di Bella, Arianna/Hoffmann, Sabine (Hrsg.): Wege der Germanistik in transkultureller Perspektive. Akten des XIV. Kongresses der Internationalen Vereinigung für Germanistik (IVG). (= Jahrbuch für Internationale Germanistik – Beihefte 6). Bern: Lang, 2022. S. 417-440.

  • Čermáková, Anna/Jantunen, Jarmo/Jauhiainen, Tommi/Kirk, John/Křen, Michal/Kupietz, Marc/Uí Dhonnchadha, Elaine (2021): The International Comparable Corpus: Challenges in building multilingual spoken and written comparable corpora. In: Research in Corpus Linguistics 9(1). Special issue "Challenges of combining structured and unstructured data in corpus development". Murcia: Spanish Association for Corpus Linguistics, 2021. S. 89-103.

  • Trawiński, Beata/Kupietz, Marc (2021): Von monolingualen Korpora über Parallel- und Vergleichskorpora zum Europäischen Referenzkorpus EuReCo. In: Lobin, Henning/Witt, Andreas/Wöllstein, Angelika (Hrsg.): Sprachpolitisch, grammatisch, methodisch. Jahrbuch des Instituts für Deutsche Sprache 2020. Berlin/Boston: de Gruyter, 2021. S. 209-234.

  • Kamocki, Paweł/Hannesschläger, Vanessa/Hoorn, Esther/Kelli, Aleksei/Kupietz, Marc/Lindén, Krister/Puksas, Andrius (2021): Legal issues related to the use of twitter data in language research. In: Monachini, Monica/Eskevich, Maria (Hrsg.): Proceedings of CLARIN Annual Conference 2021. 27 – 29 September 2021, Virtual Edition. Utrecht: CLARIN, 2021. S. 150-153.

  • Lüngen, Harald/Kupietz, Marc (2020): IBK- und Social Media-Korpora am Leibniz-Institut für Deutsche Sprache. In: Marx, Konstanze/Lobin, Henning/Schmidt, Axel (Hrsg.): Interaktiv, multimodal, vielfältig. Jahrbuch des Instituts für Deutsche Sprache 2019. Berlin/Boston: de Gruyter, 2020. S. 319-344.

  • Kupietz, Marc/Lüngen, Harald/Kamocki, Paweł/Witt, Andreas (2018): The German Reference Corpus DeReKo: New Developments – New Opportunities. In: Calzolari, Nicoletta/Choukri, Khalid/Cieri, Christopher/Declerck, Thierry/Goggi, Sara/Hasida, Koiti/Isahara, Hitoshi/Maegaard, Bente/Mariani, Joseph/Mazo, Hélène/Moreno, Asuncion/Odijk, Jan/Piperidis, Stelios/Tokunaga, Takenobu (Hrsg.): Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). Miyazaki: European Language Resources Association (ELRA), 2018. S. 4353-4360.

  • Kupietz, Marc/Lüngen, Harald (2014): Recent Developments in DeReKo. In: Calzolari, Nicoletta et al. (eds.): Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14). Reykjavik: ELRA, 2378-2385.  

  • Kupietz, Marc / Belica, Cyril / Keibel, Holger / Witt, Andreas (2010): The German Reference Corpus DeReKo: A primordial sample for linguistic research. In: Calzolari, Nicoletta et al. (eds.): Proceedings of the 7th conference on International Language Resources and Evaluation (LREC 2010). Valletta, Malta: European Language Resources Association (ELRA), 848-1854.  http://www.lrec-conf.org/proceedings/lrec2010/pdf/414_Paper.pdf

  • Kupietz, Marc / Keibel, Holger (2009): The Mannheim German Reference Corpus (DeReKo) as a basis for empirical linguistic research. In Minegishi, Makoto / Kawaguchi, Yuji (Eds.): Working Papers in Corpus-based Linguistics and Language Education, No. 3. Tokyo: Tokyo University of Foreign Studies (TUFS), 53-59.   http://cblle.tufs.ac.jp/assets/files/publications/working_papers_03/section/053-059.pdf

Kontakt:
    <korpuslinguistik(at)ids-...>
 
Leitung:
    Dr. Harald Lüngen <luengen(at)ids-...>
 
Wissenschaftliche Mitarbeiter:

    Dr. Marc Kupietz <kupietz(at)ids-...>
    Rainer Perkuhn <perkuhn(at)ids-...>
 
Kooperationen:
    siehe hier
 
Ehemalige am Korpusaufbau beteiligte Mitarbeiter des IDS:
    siehe hier
 
Studentische Hilfskräfte:

  • Nicolas Arnold