[IDS-Logo] [IDS-Logo]
Seite drucken Thema drucken Sitemap Suche Impressum Datenschutz Kontakt

Dokumente und Texte

Allgemeines

Jedes Korpus besteht aus einem oder mehreren Dokumenten; jedes Dokument setzt sich wiederum aus einem oder mehreren Texten zusammen. Die Gliederung eines Korpus in Dokumente und Texte wird zur Zeit der Korpusakquisition festgelegt.

In einem Dokument können mehrere Texte nach bestimmten Gesichtspunkten zusammengefasst sein, z.B. nach Quellen, chronologischer Abfolge, Themenbereichen und/oder Textarten.
Ein Text beinhaltet je nach Korpusstruktur z.B. einen einfachen Zeitungsartikel bis hin zu einer als Ganzes aufgenommenen Zeitung/Zeitschrift, einen Auszug aus einem selbstständigen Werk bis hin zu einem selbstständigen Werk als Ganzem (Roman, Reportage, Erlass, wissenschaftliche Abhandlung, Rede usw.).

Beispiele:

Ein Text in COSMAS II ist sowohl die kleinste recherchierbare Einheit wie auch die kleinste bibliographisch dokumentierte Einheit. Zum Beispiel gibt COSMAS II beim Exportieren von Belegen die bibliographischen Angaben der Texte aus, in denen Treffer erzielt wurden.

Übersicht über die aktuellen Dokumente und Texte

Zur Zeit werden in COSMAS II 88335 Dokumente bzw. 164,5 Mio. Texte verwaltet.

Archivsigle Archivname Dokumente Texte Stand
WArchiv der geschriebenen Sprache14.14933.004.372Jul. 2017
W2Archiv der geschriebenen Sprache5.52125.772.661Jul. 2017
W3Archiv der geschriebenen Sprache3.00026.483.836Jul. 2017
W4Archiv der geschriebenen Sprache4.46828.597.940Jul. 2017
WPArchiv der Wikipedia-Artikel und -Diskussionen14.6025.073.632Apr. 2016
WPEArchiv der englischsprachigen Wikipedia-Artikel und -Diskussionen9.9146.341.075Jun. 2016
WP_FSArchiv der fremdsprachigen Wikipedia-Artikel und -Diskussionen29.98913.901.865Nov. 2016
TAGGED-CArchiv morphosyntakt. annotierter Korpora (CONNEXOR)1.0116.473.537Dez. 2010
TAGGED-C2Archiv morphosyntakt. annotierter Korpora (CONNEXOR)8765.816.140Nov. 2014
TAGGED-TArchiv morphosyntakt. annotierter Korpora (TreeTagger)1.0126.474.408Jun. 2011
TAGGED-T2Archiv morphosyntakt. annotierter Korpora (TreeTagger)8765.816.140Nov. 2014
TAGGED-MArchiv der morphosyntaktisch annotierten Korpora14787.768Apr. 2010
HISTArchiv der historischen Korpora2.0425.653Jun. 2014
UMBArchiv des Projekts "Sprachliche Umbrüche des 20. Jahrhunderts"3919.741Okt. 2010
GFDSKartei der Gesellschaft für deutsche Sprache11Apr. 2010
WK-PHArchiv der phasengegliederten Wendekorpora2093.356Apr. 2010
W-ÜBRIGArchiv der aussortierten geschriebenen Korpora67213.502Nov. 2012
SZArchiv der Süddeutschen Zeitung60453.778Apr. 2010
 
Alle Archive88.335164.529.405 

COSMAS II, Zentrale DV-Dienste - 14. 03. 2012