Korpora der geschriebenen Sprache

Korpusakquisition

Textauswahl

Oberste Maxime bei der Auswahl neuer Texte für den Ausbau DeReKo ist entsprechend seiner Konzeption als Ur-Stichprobe des Schriftsprachgebrauchs (siehe Einsatz und Design) und als very large general purpose corpus die Maximierung von Umfang und Dispersion. In der Praxis müssen bei der Auswahl jedoch (leider) weitere Kriterien einfließen, nämlich insbesondere die Kosten für die Beschaffung der notwendigen Nutzungsrechte (siehe Urheberrechte unten) und die Kosten für die Aufbereitung der Rohdaten (siehe Konvertierung) unten.

Textbeschaffung

Die Korpora geschriebener Gegenwartsprache sollen den tatsächlichen Gebrauch der deutschen Sprache dokumentieren und diese Dokumentation stetig, am besten täglich, fortschreiben. Das heißt, als mögliche Quellen kommen künstliche Texte nicht und Webseiten nur bedingt in Frage, da sie nur einen sehr speziellen Ausschnitt der Sprache darstellen. Die Aufgabe des Projekts ist demnach die Beschaffung von geeigneten, möglichst elektronischen Vorlagen, die ein authentisches Dokument des Gebrauchs der deutschen Sprache darstellen. Germanisten und andere Forscher benötigen dieses Material, um Sprache wissenschaftlich empirisch zu erforschen. Insofern sollte es eigentlich selbstverständlich, ja sogar eine Ehre sein, dass Autoren ihre Vorlagen zur Verfügung stellen. Die Rechteinhaber werden aber häufig von der Angst abgeschreckt, mit der Freigabe ihrer Texte für die Korpora lasse sich deren widerrechtliche Vervielfältigung nicht mehr kontrollieren. Darüber hinaus sind die meisten Vorlagen aus technischen Gründen nicht besonders gut geeignet. Die Textproduzenten sind selten willens oder in der Lage, ihre Quellen in einem Format aufzubereiten, das eine leichte Überführung in das Korpusformat ermöglicht. Andererseits verfügt das IDS nicht über die Kapazitäten, die ansonsten erforderliche aufwändige Aufbereitung der Quellen selber zu übernehmen. Aufgrund dieser Rahmenbedingungen gestalten sich die rechtlichen und finanziellen Verhandlungen meistens sehr schwierig.

Urheberrechte

Durch juristische Vereinbarungen mit Verlagen, Zeitungsredaktionen und Autoren war und ist das IDS in der Lage, urheberrechtlich abgesichertes Textmaterial derart zu beschaffen, dass alle Korpora IDS-intern und Teile dieser Korpora weltweit öffentlich genutzt werden können, und zwar ausschließlich zu wissenschaftlichen, nichtkommerziellen Zwecken. Die Textkorpora des IDS sind zudem ausschließlich über das COSMAS-System recherchierbar; kein Nutzer hat Zugriff auf vollständige Korpustexte, sondern nur auf begrenzte Kontexte zu Suchanfragen. Aufgrund des auch im Hinblick auf eine wissenschaftliche Nutzung strikten Urheberrechts und der daraus resultierenden strengen Vereinbarungen mit unseren Textgebern, die, wenn es sich z.B. um Verlage handelt, selbst wiederum urheberrechtlich und vertraglich gebunden sind, können selbst IDS-intern keine vollständigen Korpustexte zur Verfügung gestellt werden.

In der Vergangenheit hat das Projekt DEREKO I (1999-2001) viel zur Klärung gerade der urheberrechtlichen Unsicherheit beigetragen. Der Anteil der Korpora, die öffentlich zugänglich sind, stieg durch dieses Projekt beträchtlich. Seit Mitte 2004 läuft nun eine erneute Akquisitionsinitiative, die verstärkt darauf abzielt, langfristige Vereinbarungen mit den Textgebern zu schließen und möglichst alle neu akquirierten Texte auch IDS-extern nutzbar zu machen.

An dieser Stelle möchten wir auch allen Autoren, Verlagen und Zeitungen danken, die ihre Werke, Texte und Dokumente für die IDS-Korpora zur Verfügung gestellt haben und auch in Zukunft stellen werden. Gleichzeitig möchten wir alle bisher Abgeneigten und Unentschlossenen dazu ermuntern, sich an diesem Unterfangen zu beteiligen, ein möglichst breites und tiefes Abbild der deutschen Sprache der germanistischen Forschung zur Verfügung zu stellen. Falls Sie Fragen zum Urheberrecht und zur Vertragsgestaltung haben, informieren wir Sie gerne.

Konvertierung

Die Quelltexte, die in die Korpussammlung aufgenommen werden sollen, liegen normalerweise in fremden Formaten vor, die auf die Bedürfnisse des Publikationswesens zugeschnitten sind und die je nach Präferenzen des Autors und des Verlags stark variieren können. Um Teil der IDS-Korpora zu werden, müssen sie in ein einheitliches, durch das IDS-Textmodell beschriebenes Format überführt werden. Das bedeutet, dass große Mengen sehr heterogener Daten in mehreren Arbeitsschritten analysiert und aufwärts konvertiert werden müssen. Zur maschinellen Unterstützung werden dazu verschiedene Parser, Konvertierer und Filter z.T. selbst entwickelt und eingesetzt. Probleme bereiten z.B. Inkonsistenzen bei Zeichensatzkodierung und Worttrennung sowie »Datenmüll« wie unmotivierte Formatangaben, Tabellen oder Textdopplungen. Aber auch sinnvolle Formatangaben variieren je nach Quelle und müssen für eine optimale Datenüberführung eingehend analysiert und vereinheitlicht werden. Die Aufwärtskonvertierung der Quellen in das IDS-Format hat einen stark iterativen Charakter und ist wegen des damit verbundenen hohen Korrektur- bzw. Wartungsbedarfs sehr kosten- und zeitaufwändig (siehe auch Konvertierungsdetails).

Korpuspflege

Auch Texte, deren Konvertierung bereits 'abgeschlossen' ist, werden kontinuierlich überprüft, mit zusätzlichen Informationen angereichert und qualitativ aufgewertet. Dies betrifft z.B. die thematische Klassifikation von Zeitungsartikeln, das Markieren von (partiellen) Duplikaten sowie die Markierung spezieller Textteile, wie z.B. wörtliche Rede, Zitate und fremdsprachliche Passagen.