[IDS-Logo] [IDS-Logo]
Seite drucken Thema drucken Sitemap Suche Impressum Datenschutz Kontakt

Korpora

Allgemeines

COSMAS II-Korpora sind Sammlungen von Textmaterialien in elektronischer Form, die überwiegend vom Deutschen Referenzkorpus - DeReKo, vereinzelt aber auch von Projektgruppen des IDS zur Verfügung gestellt und in COSMAS II eingespeist werden. Die Zusammensetzung eines solchen Korpus wie auch die Gliederung in Dokumente und Texte wird zur Zeit der Korpusakquisition festgelegt.

Während der "Einspeisung" eines Korpus in COSMAS II (dieser Prozess wird auch Indizierung genannt) wird eine Reihe von Aufbereitungsarbeiten durchgeführt. Neben den rein technischen Arbeiten, die z.B. für den effizienten Zugriff auf die Daten sorgen, erfolgen hier auch die Lemmatisierung, Erstellung von diversen Wortlisten, Regelung von Zugriffsrechten und vieles andere mehr.

Jedes Korpus wird bei der Indizierung in ein sogenanntes Archiv aufgenommen.

In COSMAS II werden zurzeit etwa 42,3 Mrd. laufende Wortformen (oder etwa 105,8 Mio. Buchseiten bei ca. 400 Wörtern/Seite) in 367 Korpora verwaltet.
Die Korpusgröße ist in Millionen von laufenden Wortformen angegeben.

Korpora in ungetaggten Archiven

Korpora im Archiv TAGGED-C

Korpora im Archiv TAGGED-C2

Korpora im Archiv TAGGED-T

Korpora im Archiv TAGGED-T2

Korpora im Archiv TAGGED-M

COSMAS II, Zentrale DV-Dienste - 14. 07. 2017