Methoden der Korpusanalyse und -erschließung
Thematische Erschließung der Korpora
Für die Arbeiten in diesem Teilprojekt war bisher unser ehemaliger Mitarbeiter Christian Weiß verantwortlich. Aktuell ruhen diese Aktivitäten. Fragen zu diesem Bereich richten Sie bitte an: korpuslinguistik@ids-mannheim.de .
Ziel des Teilprojekts ist die thematische Erschließung der Korpora, um sowohl themenspezifische virtuelle Subkorpora zusammenstellen zu können als auch aufgrund der Analyse sachgebietsbezogener Häufigkeitsverteilungen z.B. Lesarten disambiguieren zu können. Ausgangspunkt ist die Erstellung einer Taxonomie von Sachgebietsthemen. Dies erfolgt in einem semiautomatischen Verfahren, welches die Anwendung von Textmining (Dokumentclustering) und die manuelle Zuordnung von Clustern in eine externen Ontologie beinhaltet. Die so gewonnene Taxonomie eignet sich gleichermaßen für manuelle als auch für maschinelle Klassifikation. Für letzteres wird der naiv Bayessche Textklassifikator motiviert und für einen klassifizierten Korpus von knapp zwei Milliarden Wörtern evaluiert.
Eine detaillierte Beschreibung des Teilprojekts ist verfügbar als PDF-Dokument (228 Kb).
Konkrete Ergebnisse sind:
- Ein Themenkatalog:: Eine formale und extern verankerte Themenontologie
- Ein Clusterverfahren:: Eine mathematisch-statistische Methode zum automatischen Auffinden von Themen und Belegtexten
- Ein Textklassifikationsverfahren: Eine mathematisch-statistische Methode zur thematischen Bestimmung eines (zuvor unannotierten) Textes
- Weitere mathematisch-statistische Methoden wie Schlüsselwortextraktion oder Textfilterung
Darüber hinaus wird Eine Übersicht über bestehende Klassifikationsmuster anderer Sprachkorpora gegeben.
Der Themenkatalog
Ein Teilziel des Vorhabens war die Erstellung eines Sachgebietskatalog mit einer möglichst objektiven, d.h. externen Themenbeschreibung. Da keine Beschränkung hinsichtlich der zu klassifizierten Themen erfolgen sollte, wie etwa die Beschränkung auf wissenschaftliche Themen bei einer wissenschaftlichen Bibliothek, erfolgte die Ausrichtung anhand einer höheren, möglichst allumfassenden Ontologie. Die wohl größte existierende Ontologie bildet das Open Directory.
Wegen Ihres Anspruchs, alle Themengebiete zu erfassen und zu normieren, liefert das Open Directory einen großen Pool möglicher Themen und Themenbeschreibungen. Gegen eine direkte Übernahme als Klassifikationsschema sprachen jedoch mehrere Punkte:
- Zum einen erwies sich nur ein Bruchteil der Kategorien als interessant. So besteht zwar ein Interesse an der Übernahme einer Kategorie „Kultur: Film“, jedoch nicht an einer Kategorie „Kultur: Film: Filmverleih“.
- Ein weiterer Punkt, der gegen eine Eins-Zu-Eins-Übernahme sprach, waren „versteckte Kategorien“, d.h. thematisch sehr naheliegende Themen mit sehr unterschiedlichen Topkategorien. So werden beispielsweise für Gartenthemen so unterschiedliche Kategorien angegeben wie:
- „Zuhause: Garten_und_Pflanzen“
- „Wirtschaft: Bauwesen: Garten-_und_Landschaftsbau“
- „Wissenschaft: Naturwissenschaft: Biologie: Botanik: Botanische_Gärten“
- „Wirtschaft: Konsumgüter: Haus_und_Garten“
- Neben einem zu hohen Maß an Feingliedrigkeit konnte jedoch auch die gegenteilige Tendenz beobachtet werden, nämlich ein zu grobes Raster, beispielsweise bei literarischen oder religiösen Texten.
Um die oben skizzierten Probleme zu vermeiden, musste eine separate Taxonomie von Themen, erstellt werden, die in mehreren Punkten von der des Open Directory abweicht. Zum einen wurden für einen Sprachkorpus nicht relevante Kategorien herausgefiltert und die Taxonomie hierdurch erheblich reduziert, zum anderen erfolgte eine Umgewichtung: Dokumente mit Bezug zu Themen wie „Religion“ oder „Fiktion“ oder „Wissenschaft“ werden als Belege für eine besondere Art von Sprache aufgefasst wie „religiöse“, „literarische“ oder „wissenschaftliche“ Sprache.
Die Taxonomie ist online einsehbar:
- Als eine tabellarische Übersicht in Kurzform (pdf)
- Als eine ausführlichere, mit einer externen Ontologie verankerte Thementaxonomie: als HTML/ als pdf
Das Clusterverfahren
Clustering ist eine Unterform des Data Minings bzw. unüberwachten maschinellen Lernens und wird hauptsächlich zur explorativen Datenanalyse eingesetzt in so verschiedenen Disziplinen wie bspw. Biologie, empirische Sozialwissenschaften oder Information Retrieval. Dokumentclustering bedeutet die automatische Gruppierung von Texten mit ähnlichem Inhalt.
Die kann anhand der Graphik links demonstriert werden: Sie zeigt eine Mithilfe des Clusterers „CLUTO“ ermittelte hierarchische Cluster als Rubriken aus dem Bereich des Zeitungswesens (Feuilleton, Sport, Wirtschaft); der Farbton der Felder reflektiert die Prominenz eines Schlüsselwortes, aus dem Farbkontrast lassen sich ferner Rückschlüsse auf die thematische Spezifizität eines Clusters ziehen.
Die Graphik rechts zeigt eine weitaus feingliedrigere Unterteilung von Zeitungsdaten. Für den Jahrgang 1998 wurde für die „Frankfurter Rundschau“ eine Clusteranalyse vorgenommen und der jahreszeitliche Verlauf einiger ausgewählter Themen visualisiert. So lässt sich bspw. für den Herbst ein Ansteigen der Texte über Bücher beobachten, was auf die Buchmesse in Frankfurt zurückgeführt werden kann. Das Thema „Fußball“ ist besonders stark im Sommer vertreten, was auf die „Fußballweltmeisterschaft in Frankreich“ zurückgeführt werden kann. Clustering liefert somit die Themenmenge, die zu einem gewissen Zeitpunkt in der öffentlichen Diskussion bzw. in Zeitungen stand und ist somit eine Möglichkeit, Zeitgeschehen transparent zu machen.
Bezogen auf das Teilprojekt wurde ein Clusterverfahren gewählt, durch dass für die meisten in der Ontologie definierten Themen Texte zugeordnet werden konnten. Unter zu Hilfenahme des bereits oben erwähnten Clusterers CLUTO wurden alle Texte des IDS-Korpus einem Clusterverfahren unterzogen und in ca 1500 thematische Cluster eingeteilt. Dem vollautomatischen Clustering folgten zwei manuelle Schritte: Der erste Schritt bestand in einer Qualitätskontrolle: Cluster, die keine thematische Homogenität im erwünschten Sinne aufwiesen, wurden ausgeschlossen, oder, falls es sich um seltene Themen, wie beispielsweise „Reitsport“ handelte, komplett, d.h. Dokument für Dokument überprüft. Der zweite Schritt bestand in der Annotierung, bei der jedes Cluster zum einen spontan nach Inhalt, zum anderen gemäß der in der oben erklärten Thementaxonomie annotiert wurde. So wurde beispilesweise ein Cluster mit Texten über die Krankheit „Aids“ aus dem Jahr 1985 mit der Bezeichnung „: aids_85“ und dem Themengebiet „Gesundheit_Ernaehrung: Gesundheit“ markiert.
Eine Übersicht über die Cluster ist online verfügbar.
Der Klassifikator
Ziel der letzten beiden Sektionen war die Motivierung einer möglichst umfassenden Thementaxonomie sowie deren Annotierung mit Beispieltexten, die durch den Clusterer gefunden wurden. Diese semiautomatisch erzeugte Datenmenge fungierte als Eingabe für einen Textklassifikator. Da die Trainingsdaten semiautomatisch erzeugt wurden, und daher keine 100 prozentige Korrektheit aufweisen konnten, wurde ein robustes Klassifikationsverfahren gewählt, wie das naive-bayessche Klassifikationsverfahren.
Für die Evaluierung der Daten wurden Präzision, d.h. der relative Anteil der korrekten Cluster- und Klassifikationsergebnisse in Bezug auf das jeweilige Gesamtergebnis und Recall, d.h. der relative Anteil korrekter Klassifikationsergebnisse in Bezug auf eine extern klassifizierte Datenmenge berechnet. Diese Datenmengen wurden durch Zufallsauswahl extrahiert und umfassten je 30 Dokumente pro Kategorie. Im Falle der Präzision wurden drei Stichprobeentnahmen durchgeführt: Für die Trainingsdaten, für Daten aus Jahrgängen, für die Trainingsdaten zur Verfügung stehen, sowie Daten aus Jahrgängen, für die keine Trainingsdaten zur Verfügung stehen.
Die Ergebnisse sind online verfügbar als:
- Präzisionstabelle
- Recalltabelle
- die häufigkeitsbasierte Zusammensetzung des IDS-(Zeitungs)Korpus nach Themen
Weitere Ergebnisse
- Schlüsselwortextraktion:
Unter einem Schlüsselwort verstehe ich einen Term, der in Bezug auf ein Thema signifikant häufig auftaucht. Schlüsselworte ermöglichen daher Rückschlüsse bzgl. der Inhalte von Textmengen „auf einen Blick“.
Hier ist eine tabellarische Übersicht über die 10 wichtigsten Wörter pro Kategorie ermittelt durch den χ2-Test (Chi-Quadrat-Test) - Textfilterung:
Zeitungen, aus denen Korpora zu einem Großteil bestehen, enthalten sehr viel linguistisch Uninteressantes wie Ligatabellen, Börsenkurse, Veranstaltungshinweise. Um das Erscheinen dieser unerwünschten Dokumente zu unterbinden, wurden analog zum beschriebenen Verfahren, entsprechende Trainingsdaten spezifiziert. Dokumente, die zu dieser Klasse zugehören, werden ausgefiltert. Bzgl. der Evaluierung wurde neben der Präzision auch der Anteil an Dokumenten berechnet, die fälschlicherweise nicht als „Datenmüll“ kategorisiert wurden. Dieser Anteil ist in der untersten Zeile der Präzisionstabelle vermerkt.
Externe Links
- Eine tabellarische Übersicht bzgl. thematischer Annotierung anderer Sprachkorpora
(enthalten in: EAGLES Preliminary Recommendations on Text Typology) - Themen des (niederländischen) PAROLE-Korpus
- Das „BROWN CORPUS MAUNAL“
Verwendete Software
Für das Teilprojekt wurden ausschließlich Programme mit Open Source-Lizenz verwendet. Diese sind:
Kontakt: