[IDS-Logo] [IDS-Logo]
Seite drucken Thema drucken Sitemap Suche Impressum Kontakt

Dokumente und Texte

Allgemeines

Jedes Korpus besteht aus einem oder mehreren Dokumenten; jedes Dokument setzt sich wiederum aus einem oder mehreren Texten zusammen. Die Gliederung eines Korpus in Dokumente und Texte wird zur Zeit der Korpusakquisition festgelegt.

In einem Dokument können mehrere Texte nach bestimmten Gesichtspunkten zusammengefasst sein, z.B. nach Quellen, chronologischer Abfolge, Themenbereichen und/oder Textarten.
Ein Text beinhaltet je nach Korpusstruktur z.B. einen einfachen Zeitungsartikel bis hin zu einer als Ganzes aufgenommenen Zeitung/Zeitschrift, einen Auszug aus einem selbstständigen Werk bis hin zu einem selbstständigen Werk als Ganzem (Roman, Reportage, Erlass, wissenschaftliche Abhandlung, Rede usw.).

Beispiele:

Ein Text in COSMAS II ist sowohl die kleinste recherchierbare Einheit wie auch die kleinste bibliographisch dokumentierte Einheit. Zum Beispiel gibt COSMAS II beim Exportieren von Belegen die bibliographischen Angaben der Texte aus, in denen Treffer erzielt wurden.

Übersicht über die aktuellen Dokumente und Texte

Zur Zeit werden in COSMAS II 8151 Dokumente bzw. 30,3 Mio. Texte verwaltet.

Archivsigle Archivname Dokumente Texte Stand
WArchiv der geschriebenen Sprache3.56616.575.336Apr. 2012
TAGGED-TAuswahl TreeTagger-getaggter Korpora1.0126.474.408Jun. 2011
TAGGED-CAuswahl CONNEXOR-getaggter Korpora1.0116.473.536Dez. 2010
SZArchiv der Süddeutschen Zeitung60453.778Apr. 2010
W-ÜBRIGArchiv der aussortierten geschriebenen Korpora67213.502Apr. 2010
TAGGED-MArchiv der morphosyntaktisch annotierten Korpora14787.768Apr. 2010
UMBArchiv des Projekts "Sprachliche Umbrüche des 20. Jahrhunderts"3919.741Okt. 2010
HISTArchiv der historischen Korpora1.6874.667Apr. 2010
WK-PHArchiv der phasengegliederten Wendekorpora2093.356Apr. 2010
GFDSKartei der Gesellschaft für deutsche Sprache11Apr. 2010
 
Alle Archive8.15130.296.093 

COSMAS II, Zentrale DV-Dienste - 14.03.2012