Prof. Dr. Manfred Stede

Textverstehen in der Computerlinguistik am Beispiel der Automatischen Zusammenfassung

Abstract

Vor etwa 15 Jahren wurde die Computerlinguistik von einer "statistischen Wende" erfasst: Die Dominanz symbolischer, regelbasierter Analyse- und Generierungsverfahren wurde von statistischen Modellen abgelöst, die aus Korpora gewonnen werden; zusehends traten damit automatische Lernverfahren in den Vordergrund und beherrschten die Diskussion. In jüngster Zeit mehren sich allerdings die Anzeichen, dass das Pendel zurück schlägt und die symbolischen Verfahren eine Renaissance erleben, weil sie für weitere Qualitätsfortschritte als notwendige Ergänzung statistischer Modelle gesehen werden. An der Aufgabe der Automatischen Zusammenfassung lässt sich diese Situation beispielhaft illustrieren: Lange Zeit wurden ausschließlich statistische Methoden verwendet, deren Grenzen aber gerade bei dieser Aufgabe sehr schnell deutlich werden. Alternative Ansätze versuchen daher heute, die Struktur des Textes zu erkennen, auch teilweise die Argumentationslinie eines Textes zu rekonstruieren. Der Vortrag zeichnet diese Entwicklung nach und beschreibt dann ein "hybrides" Verfahren, das die Vorteile von statistischen Methoden und (text-) linguistischer Analyse für das Automatische Zusammenfassen zu verbinden versucht. Den Ausgangspunkt bilden drei parallele Analyseschritte:

  • Per Statistik werden die "relevantesten" Begriffe des Textes ermittelt.
  • Deklarativ modelliertes Textsorten-Wissen liefert Hinweise auf potenziell wichtige Textstellen.
  • Mit Hilfe eines Konnektor-Lexikons wird versucht, die rhetorische Struktur des Textes zu bestimmen; dies gelingt freilich in aller Regel nur partiell, weshalb für diese Struktur ein Repräsentationsformat entworfen wurde, das Unterspezifikation zulässt.

Auf der Grundlage der so gewonnenen Informationen wählt das System dann Textteile, aus denen anschließend die Zusammenfassung erstellt wird - allerdings nicht durch bloßes Aneinanderreihen, wie in den gängigen extraktions-basierten Ansätzen, sondern unter Rückgriff auf robuste (abermals partielle) linguistische Analyse, mit der die Kohäsion der Zusammenfassung verbessert und typische Probleme von reinen Extraktionen umgangen werden sollen (z.B. Anaphern ohne auffindbaren Antezedenten).