[IDS-Logo] [IDS-Logo]
Seite drucken Thema drucken Sitemap Suche Impressum Datenschutz Kontakt

Archive

Allgemeines

Archive sind eine Art Sammelstellen, denen Korpora zur Lagerung zugeführt werden. Archive stellen zugleich den maximalen Suchraum einer Recherche dar, d.h. mit einer Recherche kann lediglich ein einziges Archiv durchsucht werden. Suchanfragen, die über mehrere Archive ausgewertet werden sollen, müssen wiederholt für jedes relevante Archiv gestartet werden.

Die Aufteilung unserer Korpora in verschiedene Archive spiegelt die Unterschiede in der Zusammensetzung, im Bearbeitungszustand, im Format und in anderen grundlegenden Merkmalen der Korpora wieder.

Die 367 COSMAS II-Korpora sind in 18 Archiven organisiert:

Hintergrundinformationen zu den Archiven

Das Archiv W der geschriebenen Korpora

ist das größte dieser Archive. Es umfasst Texte vom 18. Jahrhundert bis heute und enthält auch die größe Bandbreite an Textsorten. Die darin enthaltenen Zeitungen und Zeitschriften werden regelmäßig mit Neuerscheinungen ergänzt. Andere neuakquirierte Quellen gelangen hingegen in die anderen Archive W2-W4.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

Die Archive W2, W3 und W4 der geschriebenen Korpora

enthalten die Neuakquisitionen der GBI-Genios Deutsche Wirtschaftsdatenbank GmbH. Zurzeit sind das Zeitschriften aus Deutschland, Österreich und der Schweiz ab dem Jahr 2000, die in alphabetischer Reihenfolge der Quellen auf die drei Archive verteilt wurden. Außerdem ergänzen sie die geografische Abdeckung der Quellen von W. Sie werden kontinuierlich mit den neuesten Ausgaben aufgefüllt.

Die Archive W bis W4 wurden nur aus technischen Gründen in separate Archive aufgeteilt und lassen sich für Recherchen nicht verbinden.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

Das Wikipedia-Archiv WP

enthält zusätzlich zu den Wikipedia-Artikeln Artikel- und Benutzerdiskussionen aus den Jahren 2013 und 2015. Bitte beachten Sie die Hinweise zu Fußnoten.

Herausgeber der Korpora: de.wikipedia.org

Das Wikipedia-Archiv WPE

enthält zusätzlich zu den englischsprachigen Wikipedia-Artikeln Artikel- und Benutzerdiskussionen aus dem Jahr 2015. Bitte beachten Sie die Hinweise zu Fußnoten und Tokenisierung.

Herausgeber der Korpora: en.wikipedia.org

Das Wikipedia-Archiv WP_FS

enthält fremdsprachige Wikipedia-Artikel, -Artikeldiskussionen und -Benutzerdiskussionen, Stand 2015. Französisch, Ungarisch, Norwegisch, Spanisch, Kroatisch, Italienisch, Polnisch. Bitte beachten Sie die Hinweise zu Fußnoten und Tokenisierung.

Herausgeber der Korpora: wikipedia.org

Das Archiv TAGGED-C (ehemals W-TAGGED)

enthält zurzeit etwa 40% der Texte mit Erscheinungsdatum bis Ende 2009 aus dem Archiv W, die mit Hilfe des CONNEXOR-Taggers morphosyntaktisch annotiert wurden.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

Das Archiv TAGGED-C2

enthält zurzeit Texte mit Erscheinungsdatum ab Anfang 2010 aus dem Archiv W, die mit Hilfe des CONNEXOR-Taggers morphosyntaktisch annotiert wurden.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

Das Archiv TAGGED-T

enthält die gleichen Korpora wie TAGGED-C und wurde mit Hilfe des TreeTaggers und aufgrund des STTS-Tagsets morphosyntaktisch annotiert.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

Das Archiv TAGGED-T2

enthält die gleichen Korpora wie TAGGED-C2 und wurde mit Hilfe des TreeTaggers und aufgrund des STTS-Tagsets morphosyntaktisch annotiert.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

Das Archiv TAGGED-M (ehemals TAGGED)

Diese auf der Grundlage des MECOLB-Minimal Tagsets morphosyntaktisch annotierten Korpora wurden schon vor einigen Jahren in einer ersten Versuchsreihe über COSMAS II verfügbar gemacht. Mit ca. 30 Mio. laufenden Wortformen umfassen sie nicht ganz 1% des gegenwärtigen Archiv W (Stand: Januar 2011).

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

Das Archiv HIST der historischen Korpora

enthält Texte von der zweiten Hälfte des 17. Jahrhunderts bis 1962. Darunter fallen zum einen die Texte, die vom Projekt Historisches Textkorpus zusammengestellt oder angeworben wurden. Zum anderen werden dort Korpora aufgeführt, die auch im Hauptarchiv W verfügbar sind, deren Texte dem Entstehungsdatum nach aber eher den historischen Korpora zugeordnet werden können.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo, Projektgruppe Historisches Korpus

Das Archiv UMB des Projekts "Sprachliche Umbrüche des 20. Jahrhunderts"

enthält Texte von 1945 bis 1969.

Das Korpus UMB45 umfasst Texte, die den Schulddiskurs der ersten Nachkriegsdekade (1945-1955) repräsentieren. Autoren und Autorinnen sind Opfer, Täter oder Nichttäter. Das Korpus der Opfertexte besteht aus monographischen Erzählungen über Verfolgung, Zuchthauserlebnisse und Lagererfahrungen. Die Beiträge der Täter stammen aus Gerichtsprotokollen, Tagebüchern und Autobiographien. Das Korpus der Nichttäter-Texte besteht aus Aufrufen, Reden, Regierungserklärungen, Ansprachen, Briefen, Tagebuchaufzeichnungen, Artikeln, Vorträgen, Gründungsprotokollen, programmatischen Schriften, Predigten, Hirtenworten, Essays, zeitkritischen monografischen Analysen, Dramen, Romanen und Kongressprotokollen.

Im Korpus UMB68 sind vor allem solche Texte der späten 1960er Jahre enthalten, die Demokratiekonzepte der Kritischen Theorie und die Rezeption dieser Konzepte durch die studentische Linke repräsentieren. Die Autoren dieser Texte sind nach den beiden Beteiligtenrollen 'intellektuelle Linke' (Adorno, Horkheimer, Habermas u.a.) und 'studentische Linke' (Dutschke, Rabehl, Negt, Krahl u.a.) unterschieden.

Herausgeber der Korpora: Projektgruppe Sprachliche Umbrüche des 20. Jahrhunderts

Das Archiv GFDS, Korpus-Kartei der Gesellschaft für deutsche Sprache, Wiesbaden (GfdS)

enthält Wörter und Wortgruppen der Sprachdokumentation der GfdS, zum großen Teil mit Verweisen auf die beiden von der GfdS herausgegebenen Zeitschriften Der Sprachdienst und Muttersprache.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

Das Archiv WK-PH der phasengegliederten Wendekorpora

enthält Texte des Wendekorpus (der Zeit der Wende um 1989-1990), die für eine zeitliche Analyse in kurze Phasen gegliedert wurden.

Die Zusammensetzung der Korpora in ihrer Gesamtheit sowie die Vergabe der Korpus-, Dokument- und Textsiglen entsprechen nicht mehr denen des Wendekorpus im Hauptarchiv. Falls auf die Phasengliederung kein Wert gelegt wird, sollte bei der Recherche besser das virtuelle Korpus wk im Archiv W verwendet werden.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

In das Archiv W-ÜBRIG der aussortierten geschriebenen Korpora

wurden Korpora geschriebener Sprache wegen erheblicher Qualitätsmängel aussortiert, die sich früher im Archiv W befanden.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

Das Archiv SZ der Süddeutschen Zeitung

enthält mehrere Jahrgänge dieser Zeitung, die alle vom Hauptarchiv in dieses Archiv verlagert wurden, um die besonderen Zugriffsrechte verwalten zu können. Dies sind: nur IDS-intern recherchierbar und nur 1 Benutzersitzung gleichzeitig.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

Übersicht über die aktuellen Archive

Archivsigle Archivname Texte Wortformen Zugriff Kommentar
WArchiv der geschriebenen Sprache33.004.3729.069.041.253insgesamtenthält auch die Korpora des ehemaligen Archivs N
27.239.0357.636.114.836öffentlich
5.765.3371.432.926.417nicht öffentlich
W4Archiv der geschriebenen Sprache28.597.9407.022.399.723insgesamt
28.597.9407.022.399.723öffentlich
00nicht öffentlich
W2Archiv der geschriebenen Sprache25.772.6616.268.750.567insgesamt
25.772.6616.268.750.567öffentlich
00nicht öffentlich
W3Archiv der geschriebenen Sprache26.483.8365.338.287.956insgesamt
26.483.8365.338.287.956öffentlich
00nicht öffentlich
WP_FSArchiv der fremdsprachigen Wikipedia-Artikel und -Diskussionen13.901.8653.585.730.609insgesamt
13.901.8653.585.730.609öffentlich
00nicht öffentlich
WPEArchiv der englischsprachigen Wikipedia-Artikel und -Diskussionen6.341.0752.551.417.366insgesamt
6.341.0752.551.417.366öffentlich
00nicht öffentlich
WPArchiv der Wikipedia-Artikel und -Diskussionen5.073.6322.437.231.681insgesamt
5.073.6322.437.231.681öffentlich
00nicht öffentlich
TAGGED-CArchiv morphosyntakt. annotierter Korpora (CONNEXOR)6.473.5371.505.819.125insgesamt
4.491.1381.022.895.699öffentlich
1.982.399482.923.426nicht öffentlich
TAGGED-TArchiv morphosyntakt. annotierter Korpora (TreeTagger)6.474.4081.500.643.070insgesamt
4.492.0131.020.172.774öffentlich
1.982.395480.470.296nicht öffentlich
TAGGED-C2Archiv morphosyntakt. annotierter Korpora (CONNEXOR)5.816.1401.378.829.460insgesamt
4.642.0311.041.145.843öffentlich
1.174.109337.683.617nicht öffentlich
TAGGED-T2Archiv morphosyntakt. annotierter Korpora (TreeTagger)5.816.1401.378.829.459insgesamt
4.642.0311.041.145.842öffentlich
1.174.109337.683.617nicht öffentlich
SZArchiv der Süddeutschen Zeitung453.778155.680.418insgesamteingeschränkte Zugriffsrechte
00öffentlich
453.778155.680.418nicht öffentlich
HISTArchiv der historischen Korpora5.65369.958.551insgesamt
5.24566.582.941öffentlich
4083.375.610nicht öffentlich
W-ÜBRIGArchiv der aussortierten geschriebenen Korpora213.50241.779.139insgesamtehemalige Korpora aus Archiv W
410.35693.947.624öffentlich
-196854-52168485nicht öffentlich
TAGGED-MArchiv der morphosyntaktisch annotierten Korpora87.76828.920.298insgesamt
74.78319.739.444öffentlich
12.9859.180.854nicht öffentlich
WK-PHArchiv der phasengegliederten Wendekorpora3.3563.229.198insgesamt
3.3563.229.198öffentlich
00nicht öffentlich
UMBArchiv des Projekts "Sprachliche Umbrüche des 20. Jahrhunderts"9.7412.352.540insgesamt
00öffentlich
9.7412.352.540nicht öffentlich
GFDSKartei der Gesellschaft für deutsche Sprache1343.607insgesamt
00öffentlich
1343.607nicht öffentlich
 
Alle Archive164.529.40542.339.244.020insgesamteinige Texte mehrfach gezählt
152.170.99739.148.792.103öffentlich
12.358.4083.190.451.917nicht öffentlich

COSMAS II, Zentrale DV-Dienste - 26. 04. 2017