Historisches Textkorpus

Das Historische Korpus umfasst Texte des Zeitraums von 1700 bis etwa 1918 und ergänzt die im Projekt "Ausbau und Pflege der Korpora geschriebener Sprache" erstellten Korpora, die überwiegend das Deutsch von der Nachkriegszeit bis zur Gegenwart dokumentieren. Mittlerweile hat es einen Umfang von etwa 45 Millionen laufenden Wörtern (recherchierbar) erreicht. Das Historische Korpus bietet für Forschungen zur Grammatik und Lexik des Gegenwartsdeutschen eine historische Vergleichsgrundlage für die jüngere Vergangenheit seit dem 18. Jahrhundert. Insbesondere wird mit ihm den eigenen Wörterbuchprojekten des IDS (Deutsches Fremdwörterbuch und elexiko) eine eigene historische Quellenbasis geschaffen. Im Moment beinhaltet das Historische Korpus zwei Querschnittskorpora mit Texten der Sach- und Gebrauchsliteratur (z.B. Wörterbuch- und Lexikonartikel, Zeitungen und Zeitschriften, wissenschaftliche Texte, Gesetzestexte) und drei Korpora mit Textsammlungen aus der Reihe „Digitale Bibliothek“: Deutsche Literatur von Lessing bis Kafka (DB 1), Philosophie von Platon bis Nietzsche (DB 2), Deutsche Literatur von Frauen (DB 45).

Das Archiv der historischen Korpora enthält daneben als weitere Teilkorpora die Sagen, Kinder- und Hausmärchen der Brüder Grimm, Goethes Werke und die Marx-Engels-Gesamtausgabe.

Aus urheberrechtlichen Gründen kann derzeit nur eine eingeschränkte Auswahl der Texte im Internet zur Recherche mittels COSMAS II angeboten werden.

Kontakt: Oliver Pfefferkorn

Historisches Korpus

Das Historische Korpus umfasst schwerpunktmäßig Texte des Zeitraums von 1700 bis etwa 1918 und ergänzt die im Projekt "Ausbau und Pflege der Korpora geschriebener Sprache" erstellten Korpora, die überwiegend das Deutsch von der Nachkriegszeit bis zur Gegenwart dokumentieren.

Es bietet für Forschungen zur Grammatik und Lexik des Gegenwartsdeutschen eine historische Vergleichsgrundlage für die jüngere Vergangenheit seit dem 18. Jahrhundert. Insbesondere wird mit ihm den Wörterbuchprojekten des IDS eine historische Quellenbasis geschaffen.

Das Historische Korpus ist in COSMAS II recherchierbar (Archiv HIST - Archiv der historischen Korpora) und enthält aktuell ca. 70.000.000 Textwörter. Aus urheberrechtlichen Gründen kann allerdings nur eine eingeschränkte Auswahl der Texte außerhalb des IDS zur Recherche angeboten werden.

Die Korpussigle für das Gesamtkorpus lautet HIST-gesamt - alle historischen Korpora des Archivs HIST. Es setzt sich aus folgenden Unterkorpora zusammen:

Sigle	Beschreibung	Wörter
hik	Querschnittkorpus mit Texten der Sach- und Gebrauchsliteratur (z.B. Wörterbuch- und Lexikonartikel, Zeitungen und Zeitschriften, wissenschaftliche Texte, Gesetzestexte)	3.375.610
dgb (db1, db2, db45)	Korpus auf der Basis von Textsammlungen aus der Reihe "Digitale Bibliothek". Unterkorpora: db1: Deutsche Literatur von Lessing bis Kafka db2: Philosophie von Platon bis Nietzsche db45: Deutsche Literatur von Frauen	57.487.072
marx (meg, mew, mwa)	Marx-Engels-Korpus. Unterkorpora: meg: Korpus Marx-Engels-Gesamtausgabe (ausgewählte Texte) mwe: Korpus Marx-Engels-Werke (ausgewählte Texte) mwa: Korpus Herausgeber-Anmerkungstexte zum Korpus Marx-Engels-Werke	2.485.394
gri	Brüder Grimm: Sagen, Kinder- und Hausmärchen, Kinderlegenden	426.236
goe	Goethes Werke	1.414.095
khzm (khz, khm)	Mannheimer Korpus Historischer Zeitungen und Zeitschriften. Unterkorpora: khz: Mannheimer Korpus Historischer Zeitungen khm: Mannheimer Korpus Historischer Zeitschriften Dieses Korpus steht auch im IDS-Repository zur Verfügung, wo weitere Informationen hinterlegt sind.	4.093.636
gmc	repräsentatives Korpus des geschriebenen Deutsch aus den Jahren 1650-1800, beruhend auf Daten des GerManC-Projekts. Genauere Beschreibung	676.508

GerManC

GerManC ist ein repräsentatives Korpus des Deutschen von 1650-1800 und umfasst 676.508 Wortformen. Es ist in das Historische Korpus des IDS integriert und verfügbar über COSMAS II, Archiv "HIST - Archiv der historischen Korpora", vordefinierte Korpora "gmc".

GerManC wurde an der University of Manchester unter der Leitung von Prof. Dr. Martin Durell erarbeitet. Auf den dortigen Projektseiten findet sich eine ausführliche Dokumentation und das Korpus selbst wird in verschiedenen Formaten zum Download angeboten. Das Korpus ist daneben auch im Oxford Text Archive achiviert.

Metainformationen

GerManC wurde als repräsentatives Korpus zusammengestellt und ist nach dem folgenden Kriterien balanciert:

Periods	Regions	Genres
		Drama
	North	Humanities
1650-1700	West Central	Legal texts
1700-1750	East Central	Letters
1750-1800	West Upper	Narrative prose
	East Upper	Newspapers
		Scientific texts
		Sermons

In der Ergebnisansicht von COSMAS II sind diese Aufteilungen folgendermaßen kodiert:

Periods: Unter Ergebnisse, Quellenansicht sind die Treffer nach Perioden aufgelistet
Regions: Unter Ergebnisse, Länderansicht sind die Treffer nach Regionen (und zusätzlich Städten) aufgelistet
Genres: Unter Ergebnisse, Textsortenansicht sind die Treffer nach Genres aufgelistet

Die Quellennachweise beim Export von Belegen enthalten Verweise auf die entsprechenden Dateien im Ursprungskorpus.

Textuelle Anpassungen

Die Version, die in COSMAS II integriert wurde, beruht auf dem TEI-Format. Folgende Anpassungen wurden vorgenommen:

Die Satzendeerkennung wurde mit den Werkzeugen von COSMAS II neu durchgeführt.
Häufige typopgraphische Sonderzeichen wurden ersetzt, um die Suche im Korpus zu erleichtern. Im Detail handelt es sich um folgende Zeichen:

Original	Ersetzung
aͤ	ä
oͤ	ö
uͤ	ü
Aͤ	Ä
Oͤ	Ö
Uͤ	Ü
ů	ü
æ	ae
œ	oe
œ	oe
Æ	AE
Œ	OE

Weitere Sonderzeichen wurden unverändert aus der TEI-Version in COSMAS II übernommen. Die Dokumentation des GerManC-Projekts enthält auf Seite 4 eine vollständige Liste mit den verwendeten SGML-Codes.

Nach Wörtern mit diesen Sonderzeichen kann in COSMAS II unter Verwendung der SGML-Codes gesucht werden (z.B. dē für dē).

Historisches Textkorpus

Historisches Korpus

GerManC

Metainformationen

Textuelle Anpassungen

Organisationsstruktur

Informationen

Schnelleinstieg

Kontakt

Social Media