[IDS-Logo] COSMAS II - Referenz

Textorganisation unter COSMAS II

Übersicht

In den nachfolgenden Dokumenten wird die aktuelle Organisation des Textmaterials unter COSMAS II beschrieben. Auch die Grundbegriffe des COSMAS-Datenmodells (Archiv, Korpus, Dokument, Text, aktives Korpus, vordefiniertes und benutzerdefiniertes virtuelles Korpus) werden hier kurz erläutert.

Die eingesetzten Tagsets sind die folgenden:

Daran schließt sich die Chronologie der wichtigsten Änderungen an.


Archive

Allgemeines

Archive sind eine Art Sammelstellen, denen Korpora zur Lagerung zugeführt werden. Archive stellen zugleich den maximalen Suchraum einer Recherche dar, d.h. mit einer Recherche kann lediglich ein einziges Archiv durchsucht werden. Suchanfragen, die über mehrere Archive ausgewertet werden sollen, müssen wiederholt für jedes relevante Archiv gestartet werden.

Die Aufteilung unserer Korpora in verschiedene Archive spiegelt die Unterschiede in der Zusammensetzung, im Bearbeitungszustand, im Format und in anderen grundlegenden Merkmalen der Korpora wieder.

Die COSMAS II-Korpora sind in Archiven organisiert:

Hintergrundinformationen zu den Archiven

Das Archiv W der geschriebenen Korpora

ist das größte dieser Archive. Es umfasst Texte vom 18. Jahrhundert bis heute und enthält auch die größe Bandbreite an Textsorten. Die darin enthaltenen Zeitungen und Zeitschriften werden regelmäßig mit Neuerscheinungen ergänzt. Andere neuakquirierte Quellen gelangen hingegen in die anderen Archive W2-W4.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

Die Archive W2, W3 und W4 der geschriebenen Korpora

enthalten die Neuakquisitionen der GBI-Genios Deutsche Wirtschaftsdatenbank GmbH. Zurzeit sind das Zeitschriften aus Deutschland, Österreich und der Schweiz ab dem Jahr 2000, die in alphabetischer Reihenfolge der Quellen auf die drei Archive verteilt wurden. Außerdem ergänzen sie die geografische Abdeckung der Quellen von W. Sie werden kontinuierlich mit den neuesten Ausgaben aufgefüllt.

Die Archive W bis W4 wurden nur aus technischen Gründen in separate Archive aufgeteilt und lassen sich für Recherchen nicht verbinden.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

Das Wikipedia-Archiv WP

enthält zusätzlich zu den Wikipedia-Artikeln Artikel- und Benutzerdiskussionen aus den Jahren 2013 und 2015. Bitte beachten Sie die Hinweise zu Fußnoten.

Herausgeber der Korpora: de.wikipedia.org

Das Wikipedia-Archiv WPE

enthält zusätzlich zu den englischsprachigen Wikipedia-Artikeln Artikel- und Benutzerdiskussionen aus dem Jahr 2015. Bitte beachten Sie die Hinweise zu Fußnoten und Tokenisierung.

Herausgeber der Korpora: en.wikipedia.org

Das Wikipedia-Archiv WP_FS

enthält fremdsprachige Wikipedia-Artikel, -Artikeldiskussionen und -Benutzerdiskussionen, Stand 2015. Französisch, Ungarisch, Norwegisch, Spanisch, Kroatisch, Italienisch, Polnisch. Bitte beachten Sie die Hinweise zu Fußnoten und Tokenisierung.

Herausgeber der Korpora: wikipedia.org

Das Archiv TAGGED-C (ehemals W-TAGGED)

enthält zurzeit etwa 40% der Texte mit Erscheinungsdatum bis Ende 2009 aus dem Archiv W, die mit Hilfe des CONNEXOR-Taggers morphosyntaktisch annotiert wurden.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

Das Archiv TAGGED-C2

enthält zurzeit Texte mit Erscheinungsdatum ab Anfang 2010 aus dem Archiv W, die mit Hilfe des CONNEXOR-Taggers morphosyntaktisch annotiert wurden.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

Das Archiv TAGGED-T

enthält die gleichen Korpora wie TAGGED-C und wurde mit Hilfe des TreeTaggers und aufgrund des STTS-Tagsets morphosyntaktisch annotiert.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

Das Archiv TAGGED-T2

enthält die gleichen Korpora wie TAGGED-C2 und wurde mit Hilfe des TreeTaggers und aufgrund des STTS-Tagsets morphosyntaktisch annotiert.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

Das Archiv TAGGED-M (ehemals TAGGED)

Diese auf der Grundlage des MECOLB-Minimal Tagsets morphosyntaktisch annotierten Korpora wurden schon vor einigen Jahren in einer ersten Versuchsreihe über COSMAS II verfügbar gemacht. Mit ca. 30 Mio. laufenden Wortformen umfassen sie nicht ganz 1% des gegenwärtigen Archiv W (Stand: Januar 2011).

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

Das Archiv HIST der historischen Korpora

enthält Texte von der zweiten Hälfte des 17. Jahrhunderts bis 1962. Darunter fallen zum einen die Texte, die vom Projekt Historisches Textkorpus zusammengestellt oder angeworben wurden. Zum anderen werden dort Korpora aufgeführt, die auch im Hauptarchiv W verfügbar sind, deren Texte dem Entstehungsdatum nach aber eher den historischen Korpora zugeordnet werden können.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo, Projektgruppe Historisches Korpus

Das Archiv UMB des Projekts "Sprachliche Umbrüche des 20. Jahrhunderts"

enthält Texte von 1945 bis 1969.

Das Korpus UMB45 umfasst Texte, die den Schulddiskurs der ersten Nachkriegsdekade (1945-1955) repräsentieren. Autoren und Autorinnen sind Opfer, Täter oder Nichttäter. Das Korpus der Opfertexte besteht aus monographischen Erzählungen über Verfolgung, Zuchthauserlebnisse und Lagererfahrungen. Die Beiträge der Täter stammen aus Gerichtsprotokollen, Tagebüchern und Autobiographien. Das Korpus der Nichttäter-Texte besteht aus Aufrufen, Reden, Regierungserklärungen, Ansprachen, Briefen, Tagebuchaufzeichnungen, Artikeln, Vorträgen, Gründungsprotokollen, programmatischen Schriften, Predigten, Hirtenworten, Essays, zeitkritischen monografischen Analysen, Dramen, Romanen und Kongressprotokollen.

Im Korpus UMB68 sind vor allem solche Texte der späten 1960er Jahre enthalten, die Demokratiekonzepte der Kritischen Theorie und die Rezeption dieser Konzepte durch die studentische Linke repräsentieren. Die Autoren dieser Texte sind nach den beiden Beteiligtenrollen 'intellektuelle Linke' (Adorno, Horkheimer, Habermas u.a.) und 'studentische Linke' (Dutschke, Rabehl, Negt, Krahl u.a.) unterschieden.

Herausgeber der Korpora: Projektgruppe Sprachliche Umbrüche des 20. Jahrhunderts

Das Archiv GFDS, Korpus-Kartei der Gesellschaft für deutsche Sprache, Wiesbaden (GfdS)

enthält Wörter und Wortgruppen der Sprachdokumentation der GfdS, zum großen Teil mit Verweisen auf die beiden von der GfdS herausgegebenen Zeitschriften Der Sprachdienst und Muttersprache.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

Das Archiv WK-PH der phasengegliederten Wendekorpora

enthält Texte des Wendekorpus (der Zeit der Wende um 1989-1990), die für eine zeitliche Analyse in kurze Phasen gegliedert wurden.

Die Zusammensetzung der Korpora in ihrer Gesamtheit sowie die Vergabe der Korpus-, Dokument- und Textsiglen entsprechen nicht mehr denen des Wendekorpus im Hauptarchiv. Falls auf die Phasengliederung kein Wert gelegt wird, sollte bei der Recherche besser das virtuelle Korpus wk im Archiv W verwendet werden.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

In das Archiv W-ÜBRIG der aussortierten geschriebenen Korpora

wurden Korpora geschriebener Sprache wegen erheblicher Qualitätsmängel aussortiert, die sich früher im Archiv W befanden.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

Das Archiv SZ der Süddeutschen Zeitung

enthält mehrere Jahrgänge dieser Zeitung, die alle vom Hauptarchiv in dieses Archiv verlagert wurden, um die besonderen Zugriffsrechte verwalten zu können. Dies sind: nur IDS-intern recherchierbar und nur 1 Benutzersitzung gleichzeitig.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

Übersicht über die aktuellen Archive


Spezielle Codierung älterer Korpora

Bei "älteren" Korpora, die in den 70er und 80er Jahren vom IDS erworben oder erstellt wurden, weicht die Kodierung am Satzanfang aus technischen Gründen vom Original ab:

Außer den Nomen werden Wörter am Satzanfang ungeachtet ihrer Schreibweise im Originaltext klein kodiert. Dieser Umstand muss bei Wortrecherchen in COSMAS II beachtet werden.

Beispiel

Im folgenden Beispiel aus dem LIMAS-Korpus sieht man, wie der Artikel der auf Kleinbuchstaben konvertiert wurde, während der Eigenname Wolfgang groß belassen wurde.

LIM/LI1.00001 Jäger, Renate: Mutti, komm doch wieder, [Trivialroman]. - Hamburg, 1970

[...] schenkte sie Viktor einen Erben. der kleine Wolfgang hatte die Großeltern versöhnt. Wolfgang war ein Rotenhoff, [...]

Betroffene Korpora


Korpora

Allgemeines

COSMAS II-Korpora sind Sammlungen von Textmaterialien in elektronischer Form, die überwiegend vom Deutschen Referenzkorpus - DeReKo, vereinzelt aber auch von Projektgruppen des IDS zur Verfügung gestellt und in COSMAS II eingespeist werden. Die Zusammensetzung eines solchen Korpus wie auch die Gliederung in Dokumente und Texte wird zur Zeit der Korpusakquisition festgelegt.

Während der "Einspeisung" eines Korpus in COSMAS II (dieser Prozess wird auch Indizierung genannt) wird eine Reihe von Aufbereitungsarbeiten durchgeführt. Neben den rein technischen Arbeiten, die z.B. für den effizienten Zugriff auf die Daten sorgen, erfolgen hier auch die Lemmatisierung, Erstellung von diversen Wortlisten, Regelung von Zugriffsrechten und vieles andere mehr.

Jedes Korpus wird bei der Indizierung in ein sogenanntes Archiv aufgenommen.

In COSMAS II werden zurzeit etwa 42,3 Mrd. laufende Wortformen (oder etwa 105,8 Mio. Buchseiten bei ca. 400 Wörtern/Seite) in 367 Korpora verwaltet.
Die Korpusgröße ist in Millionen von laufenden Wortformen angegeben.

Korpora in ungetaggten Archiven

Korpora einblenden

Korpora im Archiv TAGGED-C

Korpora einblenden

Korpora im Archiv TAGGED-C2

Korpora einblenden

Korpora im Archiv TAGGED-T

Korpora einblenden

Korpora im Archiv TAGGED-T2

Korpora einblenden

Korpora im Archiv TAGGED-M

Korpora einblenden


Dokumente und Texte

Allgemeines

Jedes Korpus besteht aus einem oder mehreren Dokumenten; jedes Dokument setzt sich wiederum aus einem oder mehreren Texten zusammen. Die Gliederung eines Korpus in Dokumente und Texte wird zur Zeit der Korpusakquisition festgelegt.

In einem Dokument können mehrere Texte nach bestimmten Gesichtspunkten zusammengefasst sein, z.B. nach Quellen, chronologischer Abfolge, Themenbereichen und/oder Textarten.
Ein Text beinhaltet je nach Korpusstruktur z.B. einen einfachen Zeitungsartikel bis hin zu einer als Ganzes aufgenommenen Zeitung/Zeitschrift, einen Auszug aus einem selbstständigen Werk bis hin zu einem selbstständigen Werk als Ganzem (Roman, Reportage, Erlass, wissenschaftliche Abhandlung, Rede usw.).

Beispiele:

Ein Text in COSMAS II ist sowohl die kleinste recherchierbare Einheit wie auch die kleinste bibliographisch dokumentierte Einheit. Zum Beispiel gibt COSMAS II beim Exportieren von Belegen die bibliographischen Angaben der Texte aus, in denen Treffer erzielt wurden.

Übersicht über die aktuellen Dokumente und Texte

Zur Zeit werden in COSMAS II Dokumente bzw. Texte verwaltet.


Virtuelle Korpora

Allgemeines

Eine COSMAS II-Recherche wird immer in einem sogenannten aktiven Korpus durchgeführt. Das aktive Korpus wird dadurch bestimmt, dass man noch vor der Suche einen Eintrag aus der Liste der vordefinierten virtuellen Korpora wählt oder ein benutzerdefiniertes virtuelles Korpus lädt.

Ein virtuelles Korpus in COSMAS II ist ein beliebiger Ausschnitt aus einem einzigen Archiv (genauer: eine beliebige Auswahl aus den Dokumenten beliebiger Korpora eines einzigen Archivs). Das virtuelle Korpus legt also fest, welche Dokumente welches Archivs durchsucht werden sollen, wenn dieses virtuelle Korpus aktiviert wird. Das einfachste virtuelle Korpus enthält nur ein einziges Dokument, das maximale virtuelle Korpus umfasst alle Dokumente aller Korpora eines Archivs.

Virtuelle Korpora können

Vordefinierte virtuelle Korpora

COSMAS II stellt automatisch für jedes verfügbare Archiv mindestens ein vordefiniertes virtuelles Korpus bereit: dieses virtuelle Korpus umfasst das gesamte Archiv. Darüber hinaus werden vom COSMAS II-Administrator für jedes Archiv je nach Bedarf weitere virtuelle Korpora definiert.

Alle vordefinierten virtuellen Korpora der jeweils verfügbaren Archive werden (unter Berücksichtigung der Zugriffsrechte) in der COSMAS II-Korpusauswahlliste zur Aktivierung angeboten.

Zur Zeit sind in COSMAS II 956 virtuelle Korpora vordefiniert. Weitere virtuelle Korpora können jederzeit definiert werden.

Benutzerdefinierte virtuelle Korpora

Die BenutzerInnen können sich aber auch eigene virtuelle Korpora zusammenstellen, indem sie eine beliebige Auswahl aus den im jeweiligen Archiv befindlichen Dokumenten treffen. Siehe dazu die Funktion Eigene Korpora editieren bzw. zusammenstellen in der Korpusverwaltung. Die resultierenden Korpora können innerhalb von COSMAS II als benutzerdefinierte virtuelle Korpora sitzungsübergreifend gespeichert, geladen und durchsucht werden.

Übersicht über die aktuellen virtuellen Korpora

Der aktuelle Stand der Organisation der virtuellen Korpora unter COSMAS II ist in der folgenden Übersicht dokumentiert.
Die Korpusgröße ist in Millionen von laufenden Wortformen angegeben.

Virtuelle Korpora im Archiv W der geschriebenen Korpora

Korpora einblenden

Virtuelle Korpora im Archiv W2 der geschriebenen Korpora

Korpora einblenden

Virtuelle Korpora im Archiv W3 der geschriebenen Korpora

Korpora einblenden

Virtuelle Korpora im Archiv W4 der geschriebenen Korpora

Korpora einblenden

Virtuelle Korpora im Archiv WP der Wikipedia-Artikel und -Diskussionen

Korpora einblenden

Virtuelle Korpora im Archiv WPE der englischsprachigen Wikipedia-Artikel und -Diskussionen

Korpora einblenden

Virtuelle Korpora im Archiv WP_FS der fremdsprachigen Wikipedia-Artikel und -Diskussionen

Korpora einblenden

Virtuelle Korpora im Archiv TAGGED-C

Korpora einblenden

Virtuelle Korpora im Archiv TAGGED-C2

Korpora einblenden

Virtuelle Korpora im Archiv TAGGED-T

Korpora einblenden

Virtuelle Korpora im Archiv TAGGED-T2

Korpora einblenden

Virtuelle Korpora im Archiv TAGGED-M

Korpora einblenden

Virtuelle Korpora im Archiv HIST der historischen Korpora

Korpora einblenden

Virtuelle Korpora im Archiv UMB des Projekts "Sprachliche Umbrüche des 20. Jahrhunderts"

Korpora einblenden

Virtuelle Korpora im Archiv GFDS, Korpus-Kartei der Gesellschaft für deutsche Sprache, Wiesbaden (GfdS)

Korpora einblenden

Virtuelle Korpora im Archiv WK-PH der phasengegliederten Wendekorpora

Korpora einblenden

Virtuelle Korpora im Archiv W-ÜBRIG der aussortierten geschriebenen Korpora

Die Korpora in diesem Archiv wurden wegen Mängel aus ihrem angestammten Archiv W (Archiv der geschriebenen Korpora) aussortiert. Sie stehen den Benützern von COSMAS II hier nach wie vor für Recherchen oder zum Überprüfen von älteren Recherchen zur Verfügung.

Korpora einblenden

Virtuelle Korpora im Archiv SZ der Süddeutschen Zeitung

Die Süddeutsche Zeitung wird ab Sep. 2007 wieder über COSMAS II angeboten, befindet sich nun aber in einem gesonderten Archiv, auf welches die folgenden Zugriffsbeschränkungen gelten: nur IDS-intern und nur eine Benutzersitzung gleichzeitig.

Korpora einblenden


Morphosyntaktische Annotationen

Ein Teil der Texte aus Archiv W liegt mittlerweile mit morphosyntaktischen Annotationen aufbereitet vor. Die Annotationen wurden von verschiedenen Taggern generiert und liegen unterschiedlichen Tagsets zugrunde.

Um Ihnen den Einstieg bei der Recherche in morphosyntaktisch annotierten Korpora zu erleichtern wurden auf den nachfolgenden Seiten Auszüge der jeweiligen offiziellen Dokumentation aufgenommen.

Archiv Tagset Tagger aktualisiert
TAGGED-C CONNEXOR CONNEXOR 2010
TAGGED-C2 2014
TAGGED-T STTS TreeTagger 2011
TAGGED-T2 2014
TAGGED-M MECOLB LOGOS 1998

Bemerkungen zum Umgang mit morphosyntaktisch annotierten Korpora

Über COSMAS II werden mehrere Archive angeboten, die mit Hilfe von automatischen Verfahren (man spricht von Taggern) morphosyntaktisch annotiert wurden.
Tagsets und Tagger wurden unabhängig voneinander außerhalb des IDS entwickelt und lassen sich wenig bis gar nicht aufeinander abstimmen.

Diese automatischen Verfahren sind notwendig, um umfangreiche Textsammlungen überhaupt annotieren zu können. Der Nachteil besteht darin, dass selbst die besten Tagger heutzutage nicht um einen konstanten Anteil von Restfehlern umhinkommen. Ihre Erfolgsquote liegt bei ca. 97% pro annotiertes Wort. Man könnte sogar sagen, je exotischer die Syntax an einer Stelle im Satz ist, desto schwieriger ist es für einen Tagger, den Text an dieser Stelle korrekt zu analysieren.

Wegen des damit verbundenen enormen manuellen Aufwandes werden Annotationen nicht überprüft bzw. korrigiert.

Eine Erfolgsquote von 97% bedeutet, dass eine Sequenz von 4 annotierten Wörtern mit einer Wahrscheinlichkeit von 97% x 97% x 97% x 97% = 88,5% korrekt ist; oder ein Satz von 9-10 Wörtern zu 75% korrekt annotiert ist; oder jeder 2. Satz von ca. 22 Wörtern korrekt annotiert ist.

Die Erfolgsquote dürfte bei den annotierten Korpora des ältesten Archivs TAGGED-M (Stand: 1998) niedriger liegen.

Ob die erreichte Annotationsgüte für Ihre Untersuchung in COSMAS II ausreichend ist, müssen Sie selber zu Beginn Ihrer Arbeit mit einer oder mehreren Stichproben prüfen.

Wir empfehlen, die annotierten Korpora der neueren Archive TAGGED-C oder TAGGED-T (Stand: 2010 bzw. 2011) bzw. TAGGED-C2 oder TAGGED-T2 (Stand: 2014) zu verwenden.


Textklassifikation in COSMAS II

Auf dieser Seite werden die beiden Textklassifikationen Textsorte und thematische Klassifikation vorgestellt, die mit der Server-Version 4.2 von COSMAS II (Juli 2012) freigegeben werden. Anhand dieser Metadaten lassen sich

um zwei neue Dimensionen erweitern.

Diese Daten werden zu einem späteren Zeitpunkt ebenfalls in die virtuelle Korpusbildung integriert.

Textsorten

In den meisten DeReKo-Zeitungskorpora und -Korpora mit Pressemeldungen sind die Texte (Artikel) mit einer Textsorte ausgezeichnet. Wir weisen darauf hin, dass das Inventar der Textsorten historisch gewachsen ist und keiner linguistisch definierten Systematik von Textsorten folgt. Die meisten Textsorten-Klassifikationen werden automatisch aus den Metadaten der Originaldaten extrahiert, die auch fehlerhafte Zuweisungen enthalten können. Nicht in allen Zeitungskorpora und nicht für alle Jahrgänge sind die Texte mit Textsorten ausgezeichnet. Einen Überblick erhalten Sie in der Textsorten-bezogenen Präsentation der Korpuszusammensetzung ihres ausgewählten Korpus in COSMAS II.

Derzeit (Release DeReKo-2012-II) umfasst die Textsorten-Taxonomie folgende Kategorien:

Abstract Analyse Anzeigentext
Beilage Bericht Bericht:Augenzeugenbericht
Bericht:Bilanzbericht Bericht:Erfahrungsbericht Bericht:Kurzbericht
Bericht:Prozessbericht Bericht:Reisebericht Bericht:Schicksalsbericht
Bericht:Sportbericht Bericht:Tagungsbericht Bericht:Testbericht
Bericht:Unternehmensbericht Bericht:Vorbericht Bericht:Wetterbericht
Bericht:Wettkampfbericht Bildbeischrift Buchauszug
Chronologie Dokumentation Dossier
Essay Expertenmeinung Fall
Fall:Kurioser Fall Fall:Spektakulärer Fall Fall:Tragischer Fall
Feuilleton Fragebogen Gegendarstellung
Gerichtsurteil Gespräch Grafik
Historisches Interview Klatsch
Kolumne Kommentar Kontaktdaten
Leserbrief Literaturhinweis Lokales
Medienseite Meldung Meldung:Agenturmeldung
Nachruf Offener Brief Personalie
Personalienprofil Porträt Porträt:Firmenporträt
Porträt:Länderporträt Porträt:Stadtporträt Rangliste
Ratgeber Rede Reportage
Reportage:Homestory Rezension Rezension:Buchrezension
Rezension:Fernsehrezension Rezension:Filmrezension Rezension:Kunstrezension
Rezension:Musikrezension Rezension:Theaterrezension Satire
Serie Sportergebnis Statistik
TippsService Umfrage Veranstaltungsinformation
Vorspann Zitat Überblick

Thematische Klassifikation

Die Texte aller DeReKo-Zeitungskorpora und Pressemeldungskorpora sind mit einem Thema ausgezeichnet, d.h. mit einer thematischen Kategorie nach einer für DeReKo entwickelten Themen-Taxonomie.

Die Themen-Taxonomie umfasst 12 Hauptkategorien und 52 Unterkategorien, welche ursprünglich auf Kategorien des Open Directory zurückgehen (vgl. Weiß 2005).

Die Themen-bezogene Ansicht von Korpora und Ergebnissen in COSMAS II basiert auf der durch einen Naive-Bayes-Klassifikator automatisch ermittelten wahrscheinlichsten Themenkategorie für jeden Text. Die Performanz dieses Klassifikators lag bei 83% durchschnittlicher Präzision und 82% durchschnittlicher Vollständigkeit auf einem Testkorpus von 30 Zeitungsartikeln je Unterkategorie aus dem Jahre 2003 (vgl. Weiß 2005).

Hauptkategorie Unterkategorien
Fiktion Vermischtes
Freizeit/Unterhaltung Reisen
Rundfunk
Vereine/Veranstaltungen
Gesundheit/Ernährung Gesundheit
Ernährung
Kultur Bildende Kunst
Darstellende Kunst
Film
Literatur
Mode
Musik
Natur/Umwelt Garten
Tiere
Wetter/Klima
Politik Ausland
Inland
Kommunalpolitik
Sport Ballsport
Fußball
Motorsport
Radsport
Tennis
Vermischtes
Wintersport
Staat/Gesellschaft Arbeit/Beruf
Bildung
Biographen/Interviews
Drittes Reich/Rechtsextremismus
Familie/Geschlecht
Kirche
Recht
Tod
Verbrechen
Technik/Industrie EDV/Elektronik
Kfz
Transport/Verkehr
Umweltschutz
Unfälle
Wirtschaft Banken
Bilanzen
Öffentliche Finanzen
Sozialprodukt
Währung
Wissenschaft Populärwissenschaft
Rest Börsenkurse
Geburt/Tod/Heirat
Impressum
Inhaltsverzeichnisse
Ligatabellen
Tabellen
Veranstaltungshinweise

Literatur und weiterführende Links


Chronologie der wichtigsten Änderungen

Juli 2017

Archiv W der geschriebenen Korpora

Das Archiv wurde um die folgenden neuen Akquisitionen ergänzt:

Das Archiv wurde um die folgenden Korpora ergänzt:

Archiv W2 mit Neuakquisitionen der "GBI-Genios Deutsche Wirtschaftsdatenbank GmbH"

Das Archiv wurde um die folgenden neuen Akquisitionen ergänzt:

Archiv W3 mit Neuakquisitionen der "GBI-Genios Deutsche Wirtschaftsdatenbank GmbH"

Das Archiv wurde um die folgenden neuen Akquisitionen ergänzt:

Archiv W4 mit Neuakquisitionen der "GBI-Genios Deutsche Wirtschaftsdatenbank GmbH"

Das Archiv wurde um die folgenden neuen Akquisitionen ergänzt:


November 2016

Archiv WP_FS der fremdsprachigen Wikipedia-Artikel und -Diskussionen

Das Archiv wurde mit den folgenden Korpora neu geöffnet:


Juni 2016

Archiv WPE der englischsprachigen Wikipedia-Artikel und -Diskussionen

Das Archiv wurde mit den folgenden Korpora neu geöffnet:


April 2016

Archiv WP der Wikipedia-Artikel und -Diskussionen

Das Archiv wurde mit den folgenden Korpora neu geöffnet:


März 2016

Archiv W der geschriebenen Korpora

Das Archiv wurde um die folgenden neuen Akquisitionen ergänzt:

Das Archiv wurde um die folgenden Korpora ergänzt:

Archiv W2 mit Neuakquisitionen der "GBI-Genios Deutsche Wirtschaftsdatenbank GmbH"

Das Archiv wurde um die folgenden neuen Akquisitionen ergänzt:

Archiv W3 mit Neuakquisitionen der "GBI-Genios Deutsche Wirtschaftsdatenbank GmbH"

Das Archiv wurde um die folgenden neuen Akquisitionen ergänzt:

Archiv W4 mit Neuakquisitionen der "GBI-Genios Deutsche Wirtschaftsdatenbank GmbH"

Das Archiv wurde um die folgenden neuen Akquisitionen ergänzt:

Das Archiv wurde um die folgenden Korpora ergänzt:

Die Ostthüringer Zeitung, die Thüringer Allgemeine und die Thüringische Landeszeitung wurden neu akquiriert. Die restlichen aufgeführten Korpora, welche zum Teil im W-Archiv vorhanden sind, wurden um Texte von Anfang 2000/2001 bis Mitte 2015 ergänzt.


März 2015

Archiv W2 mit Neuakquisitionen der "GBI-Genios Deutsche Wirtschaftsdatenbank GmbH"

Das Archiv wurde mit den folgenden Korpora neu geöffnet:

Archiv W3 mit Neuakquisitionen der "GBI-Genios Deutsche Wirtschaftsdatenbank GmbH"

Das Archiv wurde mit den folgenden Korpora neu geöffnet:

Archiv W4 mit Neuakquisitionen der "GBI-Genios Deutsche Wirtschaftsdatenbank GmbH"

Das Archiv wurde mit den folgenden Korpora neu geöffnet:


Dezember 2014

Archiv W der geschriebenen Korpora

Das Archiv wurde um die folgenden neuen Akquisitionen ergänzt:

Ergänzend zu den o.g. Neuaqkuisitionen werden ab sofort auch alle Ausgaben der Süddeutschen Zeitung von 1992 bis aktuell 2014 ein fester Bestandteil des W-Archivs sein und ebenfalls bei zukünftigen Releases des W-Archivs um neu akquirierte Texte erweitert:

Weiterhin wurden die folgenden Neuakquisitionen der GBI-Genios Deutsche Wirtschaftsdatenbank GmbH, einem Tochterunternehmen der Frankfurter Allgemeinen Zeitung und der Verlagsgruppe Handelsblatt, akquiriert und in das vorliegende Release des W-Archivs mit aufgenommen:


November 2014

Archiv TAGGED-T2 mit einer Auswahl Tree Tagger-getaggter Korpora (2010-2014)

Das Archiv hat denselben Inhalt wie TAGGED-C2, siehe weiter unten. Verwendet wurde das STTS-Tagset (Stuttgarter-Tübinger Tagset).


Archiv TAGGED-C2 mit einer Auswahl CONNEXOR-getaggter Korpora (2010-2014)

Verwendet wurde das Connexor-Tagset. Das Archiv wurde mit den folgenden Korpora neu geöffnet:


August 2014

Archiv W der geschriebenen Korpora

Wegen Kündigung der Lizenzvereinbarung von Seiten des Verlags müssen ab sofort die folgenden Ausgaben der Zeit aus dem Archiv entfernt werden:


Juli 2014

Archiv W der geschriebenen Korpora

Das Archiv wurde um die folgenden neuen Akquisitionen ergänzt:


Juni 2014

Archiv HIST der historischen Korpora

Das Archiv wurde um die folgenden neuen Akquisitionen ergänzt:


Dezember 2013

Archiv HIST der historischen Korpora

Das Archiv wurde um die folgenden neuen Akquisitionen ergänzt:


November 2013

Archiv W der geschriebenen Korpora

Das Archiv wurde um die folgenden neuen Akquisitionen ergänzt:


Juni 2013

Archiv W der geschriebenen Korpora

Das Archiv wurde um die folgenden neuen Akquisitionen ergänzt:


Dezember 2012

Archiv W der geschriebenen Korpora

Das Archiv wurde um die folgenden neuen Akquisitionen ergänzt:


April 2012

Archiv W der geschriebenen Korpora

Das Archiv wurde um die folgenden neuen Akquisitionen ergänzt:


Dezember 2011

Archiv W der geschriebenen Korpora

Das Archiv wurde um die folgenden neuen Akquisitionen ergänzt:


Juli 2011

Archiv TAGGED-T mit einer Auswahl TreeTagger-getaggter Korpora

Das Archiv hat denselben Inhalt wie TAGGED-C, siehe weiter unten. Verwendet wurde das STTS-Tagset (Stuttgarter-Tübinger Tagset).


Juni 2011

Archiv W der geschriebenen Korpora

Das Archiv wurde um die folgenden neuen Akquisitionen ergänzt:


September 2010

Archiv N der Neuakquisitionen

Das gesamte Archiv wurde in das Archiv W der geschriebenen Korpora integriert. Nach Ablauf einer Übergangszeit von vier Wochen wird das Archiv N geschlossen.

Archiv W der geschriebenen Korpora

Die im Archiv N der Neuakquisitionen befindlichen Neuakquisitionen wurden hierher verschoben und ergänzen die folgenden Korpora:

Das folgende Korpus wurde ebenfalls ergänzt:

Das Archiv wurde um die folgenden neuen Akquisitionen ergänzt:

Die Neuakquisitionen sind zukünftig in den virtuellen Korpora N-gesamt bzw. N-öffentlich zusammengefasst.


April 2010

Allgemein

Alle Archive wurden auf der Basis des XCES-Formats (XML-basiertes CES-Format) umgestellt.

Archiv N der Neuakquisitionen

Das Archiv wurde um die folgenden neuen Akquisitionen ergänzt:

Archiv UMB des Projekts "Sprachliche Umbrüche des 20. Jahrhunderts"

Das Archiv wurde um folgendes Korpus ergänzt:

Das vorhandene Korpus Textsammlung der frühen Nachkriegszeit wurde umbenannt in Schulddiskurs 1945-1955. Anschließend erhielt das Archiv seinen obigen Namen (früher: FNZ - Archiv der frühen Nachkriegszeit).

Das Archiv ist weiterhin nur intern zugänglich.


März 2010

Archiv TAGGED-C mit einer Auswahl CONNEXOR-getaggter Korpora

Verwendet wurde das Connexor-Tagset. Das Archiv wurde mit den folgenden Korpora neu geöffnet:


September 2009

Archiv N der Neuakquisitionen

Neu aufgenommen wurden:


Juli 2009

Archiv N der Neuakquisitionen

Das Archiv wurde mit den folgenden neuen Akquisitionen wieder geöffnet:

Archiv W der geschriebenen Korpora

Die seit dem Mai 2009 im Archiv N der Neuakquisitionen befindlichen Neuakquisitionen wurden hierher verschoben und ergänzen die folgenden Korpora:


Mai 2009

Archiv N der Neuakquisitionen

Das Archiv wurde mit den folgenden neuen Akquisitionen wieder geöffnet:

Archiv W der geschriebenen Korpora

Die seit dem Juli 2008 im Archiv N2 der Neuakquisitionen befindlichen Neuakquisitionen wurden hierher verschoben und ergänzen die folgenden Korpora:

Archiv N2 der Neuakquisitionen

Dieses Archiv ist nun leer und wird aufgelöst.


November 2008

Allgemein

Die Archive W und N2 wurden neu aufgebaut, da das CES-Format für die bibliografischen Daten erweitert wurde.

Archiv N2 der Neuakquisitionen

Neu aufgenommen wurden:


Oktober 2008

Allgemein

Es wurden alle Archive (Ausnahme: W und N2) neu aufgebaut, da das CES-Format für die bibliografischen Daten erweitert wurde.

Archiv HIST der historischen Korpora

Neuaufgenommen wurden:


25. Juli 2008

Archiv N2 der Neuakquisitionen

Neu aufgenommen wurden:


18. Juli 2008

Allgemein

Es wurden alle Archive auf der Basis des CES-Formates neu aufgebaut. Dies hat zur Folge, dass sich in jedem Archiv geringfügige Abweichungen in Bezug auf die Anzahl Texte und Wörter bemerkbar machen.

Die Archive im veralteten Format wurden aufgelöst.

Archiv W der geschriebenen Korpora

Die seit dem September 2007 im Archiv N der Neuakquisitionen befindlichen Neuakquisitionen wurden hierher verschoben und ergänzen die folgenden Korpora:

Archiv N der Neuakquisitionen

Dieses Archiv ist nun leer und wird aufgelöst.


Mai 2008

Archiv N2 der Neuakquisitionen

Es wurden fast 1 Mrd. Textwörter in diesem neuen Archiv auf der Basis des CES-Formates generiert:

Neu aufgenommen wurden:


Januar 2008

Archiv FNZ der frühen Nachkriegszeit

Das Archiv wird für den internen Zugang freigegeben.


September 2007

Allgemein

Es wurden alle Archive neu aufgebaut. Dies hat zur Folge, dass sich in jedem Archiv geringfügige Abweichungen in Bezug auf die Anzahl Texte und Wörter bemerkbar machen.

Archiv W der geschriebenen Korpora

Die seit dem April im Archiv N der Neuakquisitionen befindlichen Neuakquisitionen wurden hierher verschoben und ergänzen die folgenden Korpora:

Archiv N der Neuakquisitionen

Das Archiv wurde mit den folgenden neuen Akquisitionen wieder aufgefüllt:

Neu aufgenommen wurde:

Archiv SZ der Süddeutschen Zeitung

Neueröffnung dieses Archivs mit besonderen Zugriffsberechtigungen.


April 2007

Archiv N der Neuakquisitionen

Dieses Archiv wurde mit folgenden neuen Korpora oder Ergänzungen wieder geöffnet:


März 2007

Archiv W der geschriebenen Korpora

Die folgenden Korpora, die sich bis dahin im Archiv N der Neuakquisitionen befanden, wurden in dieses Archiv übernommen.

Die Zusammenfassung aller öffentlichen Korpora in diesem Archiv, das virtuelle Korpus public, wurde in W-public umbenannt; die Zusammenfassung der öffentlichen und nicht-öffentlichen Korpora dieses Archivs, das virtuelle Korpus geschr, wurde in W-gesamt umbenannt.

Außerdem konnten einige Texte, die bisher nicht öffentlich waren, auch für die öffentliche Recherche freigegeben werden: 2 Texte aus bio, 10 Texte aus fsp, 45 Texte aus loz-div und 3 aus loz-wam.

Archiv N der Neuakquisitionen

Dieses Archiv ist nun leer und wird vorübergehend abgeschaltet.


Oktober 2006

Archiv N der Neuakquisitionen

Die folgenden Korpora wurden neu aufgenommen:

Die folgenden schon vorhandenen Korpora desselben Archivs wurden ergänzt:


Mai 2006

Archiv N der Neuakquisitionen

Die folgenden erweiterten Korpora werden in diesem Archiv angeboten:


April 2006

Archiv N der Neuakquisitionen

Die folgenden neuakquirierten Korpora werden erstmals im diesem Archiv angeboten:


November 2005

Archiv W der geschriebenen Korpora

Der Inhalt des Archivs N der Neuakquisitionen wurde in dieses Archiv verschoben:

Viele ältere Korpora wurden revidiert und erhebliche Verbesserungen eingebracht (z.B. wurden Quellennachweise revidiert und ergänzt).

Alle Korpora: Textdubletten wurden eliminiert. Dies erklärt, warum trotz der Neuakquisitionen das Hauptarchiv nicht wesentlich größer geworden ist.

Archiv N der Neuakquisitionen

Dieses Archiv ist nun leer und wird vorübergehend abgeschaltet.

Archiv W-ÜBRIG der aussortierten geschriebenen Korpora

Folgende Korpora wurden wegen Mängel aus dem Archiv W der geschriebenen Korpora aussortiert und in dieses neu geschaffene Archiv verschoben:


September 2005

Archiv N der Neuakquisitionen

Dieses Archiv wird mit den folgenden neuerworbenen oder überarbeiteten virtuellen Korpora wiedereröffnet:


März 2004

Archiv W der geschriebenen Korpora

Die Jahrgänge 2002-2003

werden vom Archiv N der Neuakquisitionen in das Hauptarchiv transferiert.

Archiv N der Neuakquisitionen

Dieses Archiv ist nun leer und wird aufgelöst.


Juni 2003

Archiv N der Neuakquisitionen

Ergänzung

mit Texten bis April 2003.


Mai 2003

Archiv GESPR der gesprochenen Korpora

Die Korpora

werden dem Deutschen Spracharchiv übergeben, wo sie über das dort angebotene Recherchesystem verfügbar sind.

Das Archiv ist leer und wird aufgelöst.

Archiv TAGGED-M der morphosyntaktisch annotierten Korpora

Das Archiv TAGGED-M ist wieder verfügbar. Für den Zugriff ist die COSMAS II-Zugangssoftware Version 3.2 oder höher notwendig. Ein Annotationsassistent unterstützt die Formulierung von Suchanfragen mit Annotationen.


April 2003

Archiv W der geschriebenen Korpora

Der Inhalt des Archivs N der Neuakquisitionen, bis auf die Jahrgänge 2002 von

werden in das Hauptarchiv verschoben.


Codierung der Korpora im XCES-Format

Seit Mitte Juli 2008 diente als Grundlage für die Indizierung der Korpora nicht mehr wie bisher ein vereinfachtes TEI-Format, sondern das CES-Format (Corpus Encoding Standard). Die Umstellung auf das im Rahmen des IDS-Textmodells verwendete XCES-Format erfolgte im April 2010.

Als Benutzer von COSMAS II müssen Sie sich deswegen nicht in das neue Format vertiefen, denn die Handhabung der neuen Korpora geschieht bis auf wenige Punkte wie bisher.

Wesentliche Änderungen

Das XCES-Format bildet die Grundlage für kommende Erweiterungen in COSMAS II.

COSMAS II, Zentrale DV-Dienste - 31. 07. 2012