Textmodell

Korpora der geschriebenen Sprache

Das IDS-Textmodell

Für die effiziente automatische Auswertung großer elektronischer Textsammlungen müssen die Texte in einem einheitlichen Datenstrukturformat kodiert sein. Für die Korpora geschriebener Sprache am IDS ist dieses Format das so genannte IDS-Textmodell. Bis 2013 wurde das IDS-Textmodell definiert durch IDS-XCES, einer IDS-spezifischen DTD, die eine Modifikation des Corpus Encoding Standard XCES darstellte. XCES wiederum basierte auf dem älteren TEI P3 Standard. Um das Textmodell wieder an den aktuellen TEI-Standard P5 anzubinden, wurde der TEI P5-spezifische ODD-Mechanismus genutzt, um die neue Dokumentgrammatik I5 durch Customisierung formal aus der aktuellen TEI P5-Dokumentgrammatik abzuleiten. I5 ist so definiert, dass jedes IDS-XCES-Dokument auch ein I5-Dokument ist. Seit dem Release DeReKo-2014-I im April 2014 ist DeReKo vollständig auf I5 umgestellt, d.h. die DeReKo-Dokumente binden die mit den Roma-Stylesheets generierte i5.dtd als Dokumentgrammatik ein und weisen die Dateinamenendung .i5.xml auf.

I5 verwendet Elemente der TEI SIG CMC und der TEI SIG Correspondence. Ressourcen und Dokumente zu I5:

i5.odd	ODD-File mit der TEI P5-Customisierung von I5
i5.dtd	Durch Roma-Stylesheets abgeleitete DTD
i5.html	Durch projekt-spezifisches Stylesheet aus i5.odd abgeleitete HTML-Dokumentation
i5.xhtml	Durch Roma-Stylesheets aus i5.odd abgeleitete HTML-Dokumentation
Lizenz	für das inkorporierte Element <correspDoc> (mit Subelementen) der TEI SIG Correspondence
jtei-Artikel	Artikel (2012) über I5 im Journal of the Text Encoding Initiative

Ressourcen und Dokumente zu älteren Versionen des IDS-Textmodells:

IDS-XCES	DTDs
IDS/XCES	Ergänzungen und Änderungen gegenüber XCES
XCES	Corpus Encoding Standard for XML (Nancy Ide)

Charakteristisch für das IDS-Textmodell ist die angestrebte originalgetreue Abbildung der textuellen Inhalte und Strukturen der Quelltexte und die Dokumentation sämtlicher bisher in den Korpora vorkommender Textarten in einheitlichen Strukturen. Zentrale Komponenten des IDS-Textmodells sind Korpusstruktur, Korpustext-Bibliografie und Primärtextbehandlung.

Korpusstruktur

Um virtuelle Korpuskompositionen, sinnvolle Quellenlisten bei der Ergebnispräsentation u.a.m. zu ermöglichen, werden die Quelltexte nach festgelegten Kriterien gegliedert und in eine hierarchische Struktur eingebunden, die folgende drei Ebenen umfasst:

»»»	Korpusebene (Korpusidentifikator, z.B. LES)
	»»»	Dokumentebene (Dokumentidentifikator, z.B. LES/ESS)
		»»»	Textebene (Textidentifikator, z.B. LES/ESS.20022)

Das IDS-Textmodell definiert Text als eine relativ selbstständige, inhaltlich kohärente Folge natürlichsprachlicher Äußerungen, die natürlichen Kommunikationssituationen entstammen. Sie bildet den Korpustext, die »kleinste« Einheit eines Korpus. Jedes Korpus besteht aus einem oder mehreren Dokumenten; jedes Dokument setzt sich wiederum aus einem oder mehreren Korpustexten zusammen. In einem Dokument können mehrere Texte nach bestimmten Gesichtspunkten zusammengefasst sein, z.B. nach Quellen, chronologischer Abfolge, Themenbereichen und/oder Textarten. Ein Text beinhaltet je nach Korpusstruktur z.B. einen oder mehrere Zeitungsartikel oder eine als Ganzes aufgenommene Zeitung/Zeitschrift, einen Auszug aus einem selbstständigen Werk oder ein selbstständiges Werk als Ganzes.

Beispiel: Das Korpus Siegfried Lenz: Werkausgabe in Einzelbänden [20 Bde.].

– Hamburg: Hoffmann und Campe Verlag, 1996-1999

Anz. Texte	Dokument	Beschreibung	Bd.
1	LES/HIL.00000	Es waren Habichte in der Luft. Roman	1
...	...	...	...
1	LES/ALE.00000	Die Auflehnung. Roman	12
77	LES/ERZ.13001 [-16022]	[Erzählungen]	13-16
3	LES/SCH.17001 [-17003]	[Schauspiele]	17
4	LES/HOR.18001 [-18004]	[Hörspiele]	18
98	LES/ESS.19001 [-20032]	[Essays]	19+20

Korpustext-Bibliografie

Die IDS-Korpustexte sind von jeher mit Quellennachweisen versehen, die bei der Anzeige gefundener Belege mit angezeigt werden. Allerdings waren sie in den früheren Korpora unstrukturiert. So wurde in den Neunzigerjahren ein Korpustext-Bibliografiemodell als eine zentrale Komponente des IDS-Textmodells entwickelt, das korpusübergreifende automatische Zugriffe auf die nunmehr einheitlich strukturierten umfangreichen Quellendaten mit folgenden Zielen erlaubt:

automatische virtuelle Korpuskomposition nach Autoren, Textarten, Entstehungszeiten, Sachgebieten usw.; vorkommende Textarten sind z.B.:

Abhandlung	Aphorismus	Aufsatz	Autobiografie	Bericht
Biografie	Brief	Denkschrift	Erlass	Erzählung
Essay	Flugblatt	Fußnote	Forschungsbericht	Gebet
Gebrauchsanweisung	Gedicht	Handzettel	Hörspiel	Interview
Klappentext	Leitartikel	Märchen	Nachruf	Nachwort
Parteiprogramm	Petition	Presseerklärung	Produktbeschreibung	Protokoll
Rede	Rezension	Roman	Schauspiel	Tagebuch
Vorspann	Werbung

automatische nutzerorientierte Generierung von auswählbaren Arten von Quellennachweisen (ausführlich normgerecht, verkürzt oder übergeordnet)
Informationsgewinnung statistischer Natur unter vielfältigen Aspekten, z.B. chronologische Sortierung der Rechercheergebnisse, ermöglicht durch die Bereitstellung des Entstehungsdatums

Primärtextbehandlung

Der Primärtext des IDS-Textmodells setzt sich aus den so originalgetreu wie möglich abgebildeten Originaltext- und minimalen notwendigen Zusatzinformationen zusammen.

Originaltextinformationen	=		Grundtext + Vorspann + Überschrift(en) + Grußformel(n) + Bildtext(e) + Zusatz-(Rand-)Text(e) + Übersicht(en) + Tabelle(n) + Fußnote(n) + Originalseiteneinteilung + ...
Zusatzinformationen	=		Satzende(n) + Absatzgrenze(n)

Das Markieren dieser Erscheinungen und ggf. weiterer (z.B. Verfasser, Interviewpartner, typografische Hervorhebungen) erlaubt die Inbezugsetzung von Textinhalten zu Textstrukturen, Recherchen mit Satzabständen, die Bestimmung der Belegstellenkontexte, die Bereitstellung konkreter Originalseitenangaben in den Quellennachweisen u.a.m.

Kontakt:
    <korpuslinguistik@ids-...>

Leitung:
    Dr. Marc Kupietz <kupietz@ids-...>

Wissenschaftliche Mitarbeiter:
    Cyril Belica <belica@ids-...>
    Dr. Harald Lüngen <luengen@ids-...>
    Rainer Perkuhn <perkuhn@ids-...>

Kooperationen:
    siehe hier

Ehemalige am Korpusaufbau beteiligte Mitarbeiter des IDS:
    siehe hier

Studentische Hilfskräfte:

Nicolas Arnold

Textmodell

Korpora der geschriebenen Sprache

Das IDS-Textmodell

Korpusstruktur

Korpustext-Bibliografie

Primärtextbehandlung

Organisationsstruktur

Informationen

Schnelleinstieg

Kontakt

Social Media