Korpora der geschriebenen Sprache

Aktuelles Korpusarchiv (Stand 1/2023)

Umfang

Das IDS begann Mitte der Sechzigerjahre mit dem Aufbau elektronischer Textkorpora. Der Umfang der Korpora hat sich seit 1992 von ca. 28 Millionen auf über 57 Milliarden Textwörter im Jahre 2024 erhöht (das entspricht über 142 Millionen Buchseiten, wenn man durchschnittlich 400 Wörter/Seite zugrunde legt). Am Aufbau der weltweit größten Sammlung dieser Art waren viele Mitarbeiter beteiligt. Das Korpusarchiv wird fortlaufend erweitert und bestehendes Korpusmaterial überarbeitet. Die Ergebnisse dieser Arbeiten werden in regelmäßigen Abständen veröffentlicht, indem sie an die Recherchesysteme COSMAS II und KorAP übergeben werden (s. Release-Chronik).

Geographische Herkunft der DeReKo-Zeitungsquellen

Sigle Name von bis Lizenz Tokens

Archivierte Korpora

Aus urheber- und lizenzrechtlichen Gründen ist leider ein kleiner Teil der archivierten Korpora von außerhalb des IDS unzugänglich. In den letzten Jahren konnte der Anteil jedoch auf unter 4% gesenkt werden. Generell dürfen die IDS-Korpora nur zu wissenschaftlichen, nichtkommerziellen Zwecken genutzt werden. Welche Möglichkeiten Ihnen dafür zur Verfügung stehen, erfahren Sie auf der Seite Hinweise zur Verfügbarkeit.