Programmbereich Korpuslinguistik
Kontakt:
<korpuslinguistik@ids-...>
Leitung:
Dr. Marc Kupietz <kupietz@ids-...>
Wissenschaftliche Mitarbeiter:
Cyril Belica <belica@ids-...>
Dr. Harald Lüngen <luengen@ids-...>
Rainer Perkuhn <perkuhn@ids-...>
Kooperationen:
siehe hier
Ehemalige am Korpusaufbau beteiligte Mitarbeiter des IDS:
siehe hier
Wissenschaftliche Hilfskräfte:
Xiaoxi Pang
Studentische Hilfskräfte:
Iryna Nosik
Programmbereich Korpuslinguistik
Korpora der geschriebenen Sprache
Aktuelles Korpusarchiv
Umfang
Das IDS begann Mitte der Sechzigerjahre mit dem Aufbau elektronischer Textkorpora. Der Umfang der Korpora hat sich seit 1992 von ca. 28 Millionen auf über 4 Milliarden Textwörter im Jahre 2010 erhöht (das entspricht über 10 Millionen Buchseiten, wenn man durchschnittlich 400 Wörter/Seite zugrunde legt). Am Aufbau der weltweit größten Sammlung dieser Art waren viele Mitarbeiter beteiligt. Das Korpusarchiv wird fortlaufend erweitert und bestehendes Korpusmaterial im Sinne eines Qualitätsmanagements überarbeitet. Die Ergebnisse dieser Arbeiten werden in regelmäßigen Abständen veröffentlicht, indem sie an das Projekt COSMAS II übergeben werden (s. Release-Chronik).
Archivierte Korpora
Aus urheber- und lizenzrechtlichen Gründen ist leider nur ein Teil der archivierten Korpora von außerhalb des IDS zugänglich. In den letzten drei Jahren konnte jedoch der Umfang dieses Teils auf über 2,5 Milliarden laufende Textwörter mehr als verdoppelt werden. Generell dürfen die IDS-Korpora nur zu wissenschaftlichen, nichtkommerziellen Zwecken genutzt werden. Welche Möglichkeiten Ihnen dafür zur Verfügung stehen, erfahren Sie auf der Seite Hinweise zur Verfügbarkeit.
Archiv öffentlich zugänglicher Korpora geschriebener Sprache
- Belletristik des 20. und 21. Jahrhunderts; diverse Schriftsteller (loz-div-pub)
- Belletristik des 20. Jahrhunderts; Martin Walser (loz-wam)
- Berliner Morgenpost (bmp / 1997-1999)
- Braunschweiger Zeitung (brz / 2005-12/2010)
- Bonner Zeitungskorpus (bzk)
- Burgenländische Volkszeitung (bvz / 2007-12/2010)
- COMPUTER ZEITUNG (cz; deutsch / 1993-1998)
- Fachsprachen-Korpus 1 (fsp-pub)
- Frankfurter Rundschau (ffr / 1997-1999)
- Goethe-Korpus (goe)
- Grammatik-Korpus (gr1)
- GRIMM-Korpus (gri)
- Hamburger Morgenpost (hmp / 2005-12/2010)
- Handbuchkorpora (hbk)
- gesondert nach Jahrgängen: h85, h86, h87, h88
- Hannoversche Allgemeine (haz / 08/2007-12/2010)
- Kleine Zeitung (klz; österreichisch / 1996-2000)
- LIMAS-Korpus (lim / auch morphosyntaktisch annotiert)
- Korpus-Kartei der Gesellschaft für deutsche Sprache, Wiesbaden (gfds)
- Korpus Magazin Lufthansa Bordbuch (mld / 1995-1997)
- Mannheimer Korpora (mk)
- Mannheimer Korpus 1 (mk1)
- Mannheimer Korpus 2 (mk2)
- Mannheimer Morgen (mmm / 1989, 1991, 1994-12/2010 / teilweise morphosyntaktisch annotiert)
- Marx-Engels-Korpora
- Marx-Engels-Gesamtausgabe – ausgewählte Texte (meg)
- Marx-Engels-Werke – ausgewählte Texte (mew)
- Herausgeber-Anmerkungstexte zu mew (mwa)
- Neue Kronen-Zeitung (nkz; österreichisch / 1994-2000)
- Niederösterreichische Nachrichten (non / 2007-12/2010)
- Nürnberger Nachrichten (nun / 1990-12/2010)
- Nürnberger Zeitung (nuz / 2002-12/2010)
- Oberösterreichische Nachrichten (oon / 1996-2000)
- Die Presse (dpr; österreichisch / 1991-2000)
- Reden und Interviews (rei)
- Rhein-Zeitung (rhz / 1996-12/2010)
- Salzburger Nachrichten (sbn / 1991-2000)
- Die Südostschweiz (soz / 2005-12/2010)
- St. Galler Tagblatt (sgt; schweizerisch / 1997-2001, 2007-12/2010)
- Tiroler Tageszeitung (ttz / 1996-2000)
- VDI Nachrichten (vdi / 2006-12/2010)
- Vorarlberger Nachrichten (van / 1997-2000)
- Wendekorpus (wk)
- Wendekorpus West (wkb; Bundesrepublik Deutschland)
- Wendekorpus Ost (wkd; DDR)
- Wikipedia – Die freie Enzyklopädie (wpd / Stand 03/2005)
- Zürcher Tagesanzeiger (zta / 1996-2000)
Nur IDS-intern zugängliche Korpora geschriebener Sprache
- Belletristik des 20. und 21. Jahrhunderts; diverse Schriftsteller (loz-div)
- Belletristik des 20. Jahrhunderts; Stefan Heym (loz-hes)
- Belletristik des 20. Jahrhunderts; Siegfried Lenz (loz-les)
- Berliner Zeitung (b / 08/1997-09/2008)
- Biografische Literatur (bio)
- Der Spiegel (s / 1993-1994 / auch morphosyntaktisch annotiert)
- Die Zeit (z / 1994-2004 – teilw. nur Online-Ausgabe)
- die tageszeitung (t / 1986-03/2010)
- Meldungen der Deutschen Presse-Agentur (dpa / 2006-11/2009, 04/2010-12/2010)
- Fachsprachen-Korpus 1 (fsp)
- Fachsprachen-Korpus 2: Gentechnologie (dkg)
- Frankfurter Allgemeine (f / 1993, 1995, 1997, 1999, 2001, 2003, 2005)
- Herausgebertexte zum Korpus bio (bih)
- Historisches Korpus 1 (hi1)
- Historisches Korpus 2 (hi2)
- Interview-Korpus (iko)
- Die Rheinpfalz (rhp / 08/2007-04/2008, 07/2008-12/2010)
- Süddeutsche Zeitung1 (u / 1995-1999)
- Thomas-Mann-Korpus (thm)
- Wendekorpus Vereinigung (wkv)
1 Für diese Korpora gelten besondere Nutzungsauflagen. Zugang nur IDS-intern und nur auf Anfrage.

