Archive
Allgemeines
Archive sind eine Art Sammelstellen, denen Korpora zur Lagerung zugeführt werden. Archive stellen zugleich den maximalen Suchraum einer Recherche dar, d. h., mit einer Recherche kann lediglich ein einziges Archiv durchsucht werden. Suchanfragen, die über mehrere Archive ausgewertet werden sollen, müssen wiederholt für jedes relevante Archiv gestartet werden.
Die Aufteilung unserer Korpora in verschiedene Archive spiegelt die Unterschiede in der Zusammensetzung, im Bearbeitungszustand, im Format und in anderen grundlegenden Merkmalen der Korpora wieder.
Die 108 COSMAS II-Korpora sind in 10 Archiven organisiert:
- Archiv der geschriebenen Korpora (das Hauptarchiv)
- Archiv morphosyntaktisch annotierter Korpora (CONNEXOR-Tagset)
- Archiv morphosyntaktisch annotierter Korpora (TreeTagger-Tagset)
- Archiv morphosyntaktisch annotierter Korpora (MECOLB-Tagset)
- Archiv der historischen Korpora
- Archiv des Projekts "Sprachliche Umbrüche des 20. Jahrhunderts"
- Korpus-Kartei der Gesellschaft für deutsche Sprache
- Archiv der phasengegliederten Wendekorpora
- Archiv der aussortierten geschriebenen Korpora
- Archiv der Süddeutschen Zeitung
Hintergrundinformationen zu den Archiven
Das Archiv W der geschriebenen Korpora
ist das größte dieser Archive. Es umfasst Texte vom 18. Jahrhundert bis heute.
Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo
- Beachten Sie bei einigen Korpora dieses Archivs die spezielle Codierung.
Das Archiv TAGGED-C (ehemals W-TAGGED)
enthält zurzeit etwa 40% der Texte aus dem Archiv W, die mit Hilfe des CONNEXOR-Taggers morphosyntaktisch annotiert wurden.
Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo
- Lesen Sie hierzu die Bemerkungen zum Umgang mit morphosyntaktisch annotierten Korpora.
Das Archiv TAGGED-T
enthält die gleichen Korpora wie TAGGED-C und wurde mit Hilfe des TreeTaggers und aufgrund des STTS-Tagsets morphosyntaktisch annotiert.
Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo
- Lesen Sie hierzu die Bemerkungen zum Umgang mit morphosyntaktisch annotierten Korpora.
Das Archiv TAGGED-M (ehemals TAGGED)
Diese auf der Grundlage des MECOLB-Minimal Tagsets morphosyntaktisch annotierten Korpora wurden schon vor einigen Jahren in einer ersten Versuchsreihe über COSMAS II verfügbar gemacht. Mit ca. 30 Mio. laufenden Wortformen umfassen sie nicht ganz 1% des gegenwärtigen Archiv W (Stand: Januar 2011).
Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo
- Lesen Sie hierzu die Bemerkungen zum Umgang mit morphosyntaktisch annotierten Korpora.
Das Archiv HIST der historischen Korpora
enthält Texte von der zweiten Hälfte des 17. Jahrhunderts bis 1962. Darunter fallen zum einen die Texte, die vom Projekt Historisches Textkorpus zusammengestellt oder angeworben wurden. Zum anderen werden dort Korpora aufgeführt, die auch im Hauptarchiv W verfügbar sind, deren Texte dem Entstehungsdatum nach aber eher den historischen Korpora zugeordnet werden können.
Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo, Projektgruppe Historisches Korpus
- Beachten Sie bei einigen Korpora dieses Archivs die spezielle Codierung.
Das Archiv UMB des Projekts "Sprachliche Umbrüche des 20. Jahrhunderts"
enthält Texte von 1945 bis 1969.
Das Korpus UMB45 umfasst Texte, die den Schulddiskurs der ersten Nachkriegsdekade (1945-1955) repräsentieren. Autoren und Autorinnen sind Opfer, Täter oder Nichttäter. Das Korpus der Opfertexte besteht aus monographischen Erzählungen über Verfolgung, Zuchthauserlebnisse und Lagererfahrungen. Die Beiträge der Täter stammen aus Gerichtsprotokollen, Tagebüchern und Autobiographien. Das Korpus der Nichttäter-Texte besteht aus Aufrufen, Reden, Regierungserklärungen, Ansprachen, Briefen, Tagebuchaufzeichnungen, Artikeln, Vorträgen, Gründungsprotokollen, programmatischen Schriften, Predigten, Hirtenworten, Essays, zeitkritischen monografischen Analysen, Dramen, Romanen und Kongressprotokollen.
Im Korpus UMB68 sind vor allem solche Texte der späten 1960er Jahre enthalten, die Demokratiekonzepte der Kritischen Theorie und die Rezeption dieser Konzepte durch die studentische Linke repräsentieren. Die Autoren dieser Texte sind nach den beiden Beteiligtenrollen 'intellektuelle Linke' (Adorno, Horkheimer, Habermas u.a.) und 'studentische Linke' (Dutschke, Rabehl, Negt, Krahl u.a.) unterschieden.
Herausgeber der Korpora: Projektgruppe Sprachliche Umbrüche des 20. Jahrhunderts
Das Archiv GFDS, Korpus-Kartei der Gesellschaft für deutsche Sprache, Wiesbaden (GfdS)
enthält Wörter und Wortgruppen der Sprachdokumentation der GfdS, zum großen Teil mit Verweisen auf die beiden von der GfdS herausgegebenen Zeitschriften Der Sprachdienst und Muttersprache.Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo
Das Archiv WK-PH der phasengegliederten Wendekorpora
enthält Texte des Wendekorpus (der Zeit der Wende um 1989-1990), die für eine zeitliche Analyse in kurze Phasen gegliedert wurden.
Die Zusammensetzung der Korpora in ihrer Gesamtheit sowie die Vergabe der Korpus-, Dokument- und Textsiglen entsprechen nicht mehr denen des Wendekorpus im Hauptarchiv. Falls auf die Phasengliederung kein Wert gelegt wird, sollte bei der Recherche besser das virtuelle Korpus wk im Archiv W verwendet werden.
Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo
In das Archiv W-ÜBRIG der aussortierten geschriebenen Korpora
wurden Korpora geschriebener Sprache wegen erheblicher Qualitätsmängel aussortiert, die sich früher im Archiv W befanden.
Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo
Das Archiv SZ der Süddeutschen Zeitung
enthält mehrere Jahrgänge dieser Zeitung, die alle vom Hauptarchiv in dieses Archiv verlagert wurden, um die besonderen Zugriffsrechte verwalten zu können. Dies sind: nur IDS-intern recherchierbar und nur 1 Benutzersitzung gleichzeitig.
Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo
Übersicht über die aktuellen Archive
| Archivsigle | Archivname | Texte | Wortformen | Zugriff | Kommentar |
| W | Archiv der geschriebenen Sprache | 16.575.336 | 3.993.426.738 | insgesamt | enthält auch die Korpora des ehemaligen Archivs N |
| 12.700.093 | 2.865.076.020 | öffentlich | |||
| 3.875.243 | 1.128.350.718 | nicht öffentlich | |||
| TAGGED-C | Auswahl CONNEXOR-getaggter Korpora | 6.473.536 | 1.505.818.966 | insgesamt | |
| 4.491.138 | 1.022.895.699 | öffentlich | |||
| 1.982.398 | 482.923.267 | nicht öffentlich | |||
| TAGGED-T | Auswahl TreeTagger-getaggter Korpora | 6.474.408 | 1.500.643.070 | insgesamt | |
| 4.492.013 | 1.020.172.774 | öffentlich | |||
| 1.982.395 | 480.470.296 | nicht öffentlich | |||
| SZ | Archiv der Süddeutschen Zeitung | 453.778 | 155.680.418 | insgesamt | eingeschränkte Zugriffsrechte |
| 0 | 0 | öffentlich | |||
| 453.778 | 155.680.418 | nicht öffentlich | |||
| HIST | Archiv der historischen Korpora | 4.667 | 65.390.942 | insgesamt | |
| 1.974 | 4.333.434 | öffentlich | |||
| 2.693 | 61.057.508 | nicht öffentlich | |||
| W-ÜBRIG | Archiv der aussortierten geschriebenen Korpora | 213.502 | 41.779.139 | insgesamt | ehemalige Korpora aus Archiv W |
| 213.502 | 41.779.139 | öffentlich | |||
| 0 | 0 | nicht öffentlich | |||
| TAGGED-M | Archiv der morphosyntaktisch annotierten Korpora | 87.768 | 28.920.298 | insgesamt | |
| 74.783 | 19.739.444 | öffentlich | |||
| 12.985 | 9.180.854 | nicht öffentlich | |||
| WK-PH | Archiv der phasengegliederten Wendekorpora | 3.356 | 3.229.198 | insgesamt | |
| 3.356 | 3.229.198 | öffentlich | |||
| 0 | 0 | nicht öffentlich | |||
| UMB | Archiv des Projekts "Sprachliche Umbrüche des 20. Jahrhunderts" | 9.741 | 2.352.540 | insgesamt | |
| 0 | 0 | öffentlich | |||
| 9.741 | 2.352.540 | nicht öffentlich | |||
| GFDS | Kartei der Gesellschaft für deutsche Sprache | 1 | 343.607 | insgesamt | |
| 0 | 0 | öffentlich | |||
| 1 | 343.607 | nicht öffentlich | |||
| Alle Archive | 30.296.093 | 7.297.584.916 | insgesamt | einige Texte mehrfach gezählt | |
| 21.976.859 | 4.977.225.708 | öffentlich | |||
| 8.319.234 | 2.320.359.208 | nicht öffentlich | |||