Jahrestagung 2009:

Fachmesse zur Korpustechnologie

Aussteller:

Archiv für Gesprochenes Deutsch (AGD)

In der Linguistik gewinnen Sprachkorpora eine immer größere Bedeutung für die Forschung. Vor allem für Gesprächskorpora gilt jedoch, dass ihre Erstellung sehr aufwändig ist und umfassende technische und methodische Kenntnisse erfordert. Deshalb bietet das Archiv für Gesprochenes Deutsch (AGD) am IDS Mannheim vielfältige Unterstützung an, um die Erstellung und wissenschaftliche Auswertung von Gesprächskorpora in Forschung und Lehre zu fördern.

Zentrale Aufgabe des Archiv ist es, Korpora aus abgeschlossenen Forschungsprojekten zu übernehmen und für zukünftige Forschung und Lehre in der Wissenschaftsgemeinschaft zu erhalten. Auf diese Weise sind in 50 Jahren über 45 Korpora mit über 5000 Stunden Gesamtdauer gesammelt worden.

Um den wissenschaftlichen Bedürfnissen noch umfassender Rechnung tragen zu können, werden zur Zeit in der Abteilung "Pragmatik" zwei moderne Forschungskorpora aufgebaut. Zum einen ist dies das Korpus "Deutsch heute", das die Variation des standardnahen Deutsch, wie es heutzutage im deutschen Sprachraum gesprochen wird, auf der Basis von 170 Erhebungsorten dokumentiert. Zum anderen entsteht in den kommenden Jahren das "Forschungs- und Lehrkorpus Gesprochenes Deutsch" (FOLK), das einen breiten Querschnitt von Transkripten, Ton- und Videoaufnahmen aus unterschiedlichsten Gesprächstypen in deutscher Sprache umfassen wird. Beide Korpora werden in den nächsten Jahren über die "Datenbank Gesprochenes Deutsch" (DGD), die zur Zeit umfassend überarbeitet und auf eine neue ORACLE-Plattform umgesetzt wird, online zur Verfügung gestellt.

Eine weitere wichtige Aufgabe des Archivs ist es, die wissenschaftliche Gemeinschaft bei der Erstellung von Gesprächskorpora zu beraten und Informationen aller Art rund um die Korpustechnologie im "Gesprächsanalytischen Informationssystem" (GAIS) anzubieten. Um Anbieter und Nutzer dieser Technologie mit einander ins Gespräch zu bringen, veranstaltet das AGD Fachmessen und Kolloquien. Darüber hinaus beteiligt es sich auch aktiv an der Entwicklungsarbeit, z.B. mit dem neuen Transkriptionseditor FOLKER, dem Metadaten-Schema "diasysco" und der Unterstützung von GAT 2.

Kontakt: Dr. Martin Hartung (hartung(at)ids-mannheim.de)

Webadresse: http://agd.ids-mannheim.de

Datenbank Gesprochenes Deutsch (DGD)

Mit dem Aufbau der "Datenbank Gesprochenes Deutsch (DGD)" wurde 1997 unter der Leitung von Reinhard Fiehler und Peter Wagener begonnen (finanziell unterstützt von der VolkswagenStiftung), um die digitalen Bestände des AGD über eine Benutzer-Schnittstelle im Internet verfügbar zu machen. Seit 2003 kann über einen großen Teil der Korpus-Dokumentationen und Metadaten recherchiert werden ("Digitaler Bestandskatalog") unter http://dsav-wiss.ids-mannheim.de.

Für wissenschaftliche Auswertungen von großer Bedeutung ist die Möglichkeit der DGD, in den Transkripten nicht nur nach Worten, sondern auch mithilfe der am IDS entwickelten Retrievalsoftware COSMAS II nach komplexen Wortkombinationen zu suchen und sich die gefundenen Belegstellen sofort anzuhören. Die Text-Ton-Synchronisation (Alignment) wurde von Rudolf Schmidt entwickelt und betreut.

Seit 2007 wird die DGD unter der Leitung von Martin Hartung von Wolfgang Knobloch administriert. Zur Zeit wird sie von Joachim Gasch und Rudolf Schmidt komplett überarbeitet, auf moderne Datenstandards umgestellt, in den Funktionalitäten erheblich erweitert und auf eine ORACLE-Plattform umgesetzt. Dazu wurde von Sylvia Dickgießer ein neues Metadaten-Schema ("diasysco") und zusammen mit der GAT-Gruppe DV-taugliche Transkriptionskonventionen (GAT 2) entwickelt. In diesem Zusammenhang werden auch die digitalen Bestände erheblich erweitert werden ("Projekt DGD 2.0").

Kontakt DGD 1.0 (aktuelle Version):
Wolfgang Knobloch (knobloch@pragmatik.ids-mannheim.de)
Webadresse: http://dsav-wiss.ids-mannheim.de

Kontakt DGD 2.0 (Projekt):
Dr. Martin Hartung (hartung(at)ids-mannheim.de)
Joachim Gasch (gasch(at)ids-mannheim.de)

Für die neue DGD-Version gibt es zur Zeit noch keine Webadresse.

Das Korpus Deutsch heute (DH)

Der Stand präsentiert das IDS-Korpus "Deutsch heute". Das Korpus umfasst systematisch erhobenes Datenmaterial zur gesprochenen deutschen Standardsprache aus dem gesamten deutschsprachigen Gebiet Europas. Das Korpus eignet sich durch eine formalisierte Aufnahmesituation und ein engmaschiges Ortsnetz insbesondere zur Beschreibung der räumlichen Variation im Sprechstandard. Der Stand bietet Informationen zum Korpusdesign, zur Datenaufbereitung und zum Annotations- und Analyseinstrument praat sowie zur Perspektive und zu ersten Ergebnissen der Auswertung im Rahmen des IDS-Projekts "Variation des gesprochenen Deutsch". Zudem werden Daten in Form des Ratespiels "Hör mal, wo der spricht" präsentiert, bei dem die Standbesucher ihre Kenntnisse der regionalen Variation des Deutschen erproben können.

Kontakt:
Dr. Stefan Kleiner (kleiner(at)ids-mannheim.de)
Ralf Knöbl (knoebl(at)ids-mannheim.de)

Webadresse: http://www.ids-mannheim.de/prag/AusVar/Deutsch_heute/

Das Lehr- und Forschungskorpus gesprochenes Deutsch (FOLK)

Jedes gesprächsanalytische Forschungsvorhaben ist bisher meistens darauf angewiesen, eigenständig neue Daten zur Untersuchung einer bestimmten Fragestellung zu erheben. Da es keine systematisch gesammelten, nach einheitlichen Kriterien dokumentierten und transkribierten Datenbestände gibt, die für wissenschaftliche Forschungsprojekte zugänglich sind, sind die Nachhaltigkeit der Datenarchivierung und die Kumulativität des Erkenntnisprozesses durch kontrastive und korpusübergreifende Studien bisher stark begrenzt.

Um diesem Mangel abzuhelfen, hat das Institut für Deutsche Sprache 2008 mit dem Aufbau eines "Lehr- und Forschungskorpus gesprochenes Deutsch" (FOLK) unter der Leitung von Arnulf Deppermann und Martin Hartung begonnen. Dieses soll sukzessive Daten von unterschiedlichsten Typen authentischer Gespräche für Forschungs- und Lehrzwecke verfügbar machen. Die Gespräche werden in Form von Audio- bzw. Videoaufnahmen, Text-Ton-alignierten Transkripten und beschreibenden Metadaten über die "Datenbank Gesprochenes Deutsch" (DGD) via Internet für Forschung und die universitäre Lehre verfügbar gemacht und werden nach verschiedensten Kriterien recherchierbar sein. Der Aufbau von FOLK wird mit Mitteln aus dem Pakt für Forschung und Innovation der Leibniz-Gesellschaft gefördert.

Kontakt: Prof. Arnulf Deppermann (deppermann(at)ids-mannheim.de)

Webadresse: http://agd.ids-mannheim.de/html/folk.shtml

Neue Forschungsinfrastrukturen in der Sprachwissenschaft

Hinsichtlich der Verfügbarkeit von elektronischen Forschungsmaterialien zur Unterstützung der wissenschaftlichen Arbeit, ist die Situation im Bereich der Linguistik durch die langjährige Erfahrung mit elektronischen Sprachdaten derzeit als gut zu bezeichnen. Allerdings liegen die vorhandenen Ressourcen und Technologien vielfach nur verstreut vor und sind in vielerlei Hinsicht nicht aufeinander abgestimmt. Hierdurch ergibt sich das Problem, dass die tatsächliche Zugänglichkeit der Ressourcen über Rechnernetzwerke und vor allem die Kombinierbarkeit unterschiedlicher Angebote noch nicht gesichert ist. Dieser Herausforderung widmet sich am IDS seit Januar 2009 ein eigenes, vom BMBF gefördertes Forschungsprojekt.

Auf dem Stand werden Sprachressourcen und -technologien ausgewählter Projekte, die im IDS angesiedelt sind oder an denen das IDS beteiligt ist, vorgestellt. Darüber hinaus werden die Möglichkeiten, die sich durch die Verbindung verschiedener Forschungsressourcen ergeben, am Beispiel der Verknüpfung des Deutschen Referenzkorpus DeReKo und des Korpusanalyse- und -recherchesystems COSMAS II mit den europäischen und nationalen Verbundinitiativen wie CLARIN, D-SPIN und TextGrid exemplarisch demonstriert. Hierdurch sollen die Potenziale neuer Forschungsinfrastrukturen für die Sprachwissenschaft sichtbar werden.

Kontakt:
Marc Kupietz (kupietz(at)ids-mannheim.de)
Andreas Witt (witt(at)ids-mannheim.de)

Webadresse: http://www.ids-mannheim.de/projekte/forschungsinfrastruktur

Gesprächsanalytisches Informationssystem (GAIS)

Das Gesprächsanalytische Informationssystem GAIS ist ein wissenschaftliches Fachinformationssystem für die Arbeit in der Gesprächsforschung und die wissenschaftliche Gemeinschaft. GAIS wurde in der Abteilung Pragmatik des Instituts für Deutsche Sprache (IDS) aufgebaut und wird dort inzwischen vom Archiv für Gesprochenes Deutsch betreut. Adressat von GAIS ist die wissenschaftliche Gemeinschaft vom fortgeschrittenen Studenten bis zum Lehrstuhlinhaber und über Fachgrenzen hinweg (Linguisten, Soziologen, Sprechwissenschaftler, Psychologen, Pädagogen). Nutzerbefragungen und Erfahrungen mit Service- und Beratungsanfragen an das AGD und die Mailliste "Gesprächsforschung" haben ergeben, welche Informationen in diesem Kreis immer wieder nachgefragt werden. Dazu gehören Informationen über die Gemeinschaft selbst (Neuigkeiten, Personen, Veranstaltungen, Stellenmarkt, Mailliste, Projekte, Korpora) als auch über ihre Arbeitsweise (Aufnahme- und Korpustechnologie). GAIS bietet weiterführende Informationen in Form einer Bibliographie und einer Linksammlung an.

GAIS umfasst drei Informationsbereiche:

  • "Community" mit Informationen aus der wissenschaftlichen Gemeinschaft (Veranstaltungen, aktuelle Meldungen, Sammlung von persönlichen Webseiten, Stellenmarkt und Mailliste zur Gesprächsforschung mit inzwischen über 1000 Teilnehmern).
  • "Technik" mit Informationen zur Aufnahmetechnik (Audio, Video, Mikrofone, Kabel und Stecker), Hard- und Software. Häufige Fragen werden unter FAQ beantwortet und technische Fachbegriffe unter "Fachbegriffe" erklärt.
  • "Information" mit einer Bibliographie zur Gesprächsforschung (BGF) mit inzwischen über 16.000 Einträgen und einer Sammlung mit relevanten Links.

Kontakt:
Dr. Martin Hartung (hartung(at)ids-mannheim.de)
Dr. Wilfried Schütte (schuette(at)ids-mannheim.de)

Webadresse: http://gais.ids-mannheim.de

Transkriptionseditor FOLKER

Um die Transkripte für das neue "Forschungs- und Lehrkorpus" (FOLK) schnell und komfortabel erstellen zu können und in der Datenbank DGD 2.0 optimal auswertbar und darstellbar zu machen, musste ein neuer Editor mit einem konsistenten Datenmodell und einem konsequenten XML-Format entwickelt werden. Nach Abschluss seiner Entwicklung in den nächsten Monaten wird der Editor auf der Website des AGD (agd.ids-mannheim.de) zum kostenlosen Download zur Verfügung stehen. Entwickelt wird das Programm von Thomas Schmidt (Hamburg) in enger Abstimmung mit der Abteilung "Pragmatik" am IDS.

In den Editor sind ein Audioplayer und eine Darstellung des Sprachsignals als Oszillogramm eingebaut, um so effizient Segmente zum Transkribieren auswählen und beim Transkribieren automatisch Zeitmarken für diese Segmente setzen zu können. FOLKER überprüft segmentweise die Texteingabe auf Einhaltung der GAT-Konventionen und Integrität der zeitlichen Strukturen (keine Überlappungen bei Segmenten eines Sprechers). Im Editor kann das Transkript wahlweise als Folge von Segmenten, als Partitur (in Anlehnung an die Visualisierung im EXMARaLDA-Editor) oder als Folge von Sprecherbeiträgen dargestellt werden, bei denen einem Sprecher zugeordnete und aufeinander folgende Segmente zusammengefasst werden. Diese Darstellungsmöglichkeiten passen zu einer sinnvollen Abfolge von Arbeitsschritten beim Transkribieren: Die Ersteingabe eines Rohtranskripts ohne Berücksichtigung der genauen Extension von Überlappungen findet zweckmäßiger im Segment-View statt, im Partitur-View können dann in einer Korrektur-Durchsicht die Feinheiten von Überlappungen korrigiert werden; der Beitrags-View dient dem abschließenden Korrekturhören.

Ansprechpartner: Dr. Martin Hartung (hartung(at)ids-mannheim.de)

Webadresse: http://agd.ids-mannheim.de/html/folker.shtml

Exmaralda

EXMARaLDA ist ein System zum Erstellen, Verwalten und Analysieren von Korpora gesprochener Sprache. Es besteht aus einem Transkriptionseditor, einem Korpus-Manager und einem Suchwerkzeug. Die Verwendung offener Standards und plattformübergreifender Technologien sorgen für eine maximale Wiederverwendbarkeit der mit dem System erstellten Daten. Zahlreiche Schnittstellen zu anderen gängigen Softwarewerkzeugen (z.B. Praat, ELAN) ermöglichen einen effektiven und verlustfreien Datenaustausch.

EXMARaLDA wird für die Arbeit des SFB 538 Mehrsprachigkeit an der Universität Hamburg entwickelt und externen Nutzern kostenfrei zur Verfügung gestellt. Das System wird unter anderem in der Gesprächsforschung, der Spracherwerbsforschung und der Dialektologie eingesetzt. Das Standangebot umfasst erstens eine Demonstration der Software-Tools: Transkribieren mit dem Partitur-Editor, Korpora anlegen und Metadaten verwalten mit dem Corpus-Manager, Suchanfragen und Analyse mit EXAKT. Zweitens werden einige mit EXMARaLDA erstellte Korpora vorgeführt: ein mehrsprachiges Arzt-Patienten-Korpus (Bührig & Meyer), ein Korpus zum simultanen und konsekutiven Dolmetschen (Meyer), ein Korpus zum türkisch-deutschen Bilingualismus (Rehbein) sowie ein Korpus zur interskandinavischen Kommunikation (Braunmüller).

Kontakt: Thomas Schmidt (thomas.schmidt(at)uni-hamburg.de)

Webadresse: http://www.exmaralda.org/

[moca2] - multimodal oral corpus administration

[moca2] ist ein Online-System zur Verwaltung mündlicher Sprachkorpora. In [moca2] werden Audio- und/oder Videoaufnahmen sowie zugehörige Transkripte gespeichert. Die Transkripte liegen in alignierter Form vor, was bedeutet, dass mit dem Text der Sprechbeiträge auch die Sprecher- und Zeitinformation erfasst wird. Hierdurch ist es möglich, in einem Internetbrowser direkt die entsprechende Aufnahme zu einer Transkriptstelle als Mediastream abzuspielen. Neben den Transkripten können auch soziolinguistische Metainformationen zur Aufnahmesituation und den beteiligten Sprechern strukturiert verwaltet werden. Über die Vergabe sogenannter Labels für Äußerungen (manuelles Tagging) können umfangreiche Kollektionen eines linguistischen Phänomens erstellt und ausgewertet werden.

Detaillierte Suchmöglichkeiten erlauben es, bestimmte Aufnahmen, Sprecher, Transkriptausschnitte und Labels zu finden. Beispielsweise ist es möglich, aus den vorhandenen Daten Aufnahmen aus einer bestimmten Region auszuwählen, um Analysen darauf zu beschränken, oder nach Sprechern zu suchen, die einer bestimmten Altersgruppe angehören. Darüber hinaus ist es möglich, in Transkripten nach Intonationsphrasen zu suchen, die bestimmte (Kombinationen oder Teile von) Wortformen enthalten.

Ziel von [moca2] ist dabei, einen intuitiven, sicheren und personifizierten Zugang zu den Korpora zu gewährleisten. Dabei unterstützt das System eine unbegrenzte Anzahl von Nutzern, denen individuell der Zugriff auf bestimme Daten gestattet oder verweigert werden kann. [moca2] kann von praktisch jedem internetfähigen Computer genutzt werden, ohne dass besondere technische Anforderungen oder Kenntnisse erforderlich sind.

Kontakt:
Daniel Alcón López (daniel.alcon(at)romanistik.uni-freiburg.de)
Oliver Ehmer (oliver.ehmer(at)romanistik.uni-freiburg.de)

Webadresse: http://moca.phil2.uni-freiburg.de/moca_test

GAT-TO: Gesprächsanalytisches Transkriptionssystem - Tutorial Online

GAT-TO ist ein multimediales, interaktives Online-Tutorial für das Erstellen von Gesprächstranskripten nach den Konventionen des Gesprächsanalytischen Transkriptionssystems GAT bzw. GAT 2 (Selting et al. 1998, Selting et al. in Vorb.). Das Tutorial richtet sich an Studierende und Forscher/innen verschiedener Fachbereiche, die ihrer Arbeit Audioaufnahmen oder audiovisuelle Aufnahmen wie Interviews, Gesprächsaufzeichnungen, Aufzeichungen von Fernsehdiskussionen etc. zugrunde legen. Zielgruppe sind dabei sowohl Anfänger als auch Fortgeschrittene, die ihre GAT-Kenntnisse verfestigen wollen. Das Tutorial umfasst den gesamten Lehr- und Lernprozess: Zum einen werden dem Lernenden die GAT-Konventionen erläutert, zum anderen werden multimediale Übesequenzen bereitgestellt. Hierdurch wird eine neuartige Trainingssituation geschaffen, die neben der Selbstlernmöglichkeit auch in Blended Learning-Szenarien Einsatz findet. GAT-TO ist modular aufgebaut, d.h. die Lerner werden in verschiedenen strukturierten und didaktisch aufbereiteten Lernmodulen an einzelne Teilbereiche herangeführt. Die Module sind jeweils größeren Einheiten, den sog. Themengebieten, zugeordnet. Zu diesen Themengebieten zählen beispielsweise die Bereiche "Grundlegendes zur Transkription", "Allgemeiner Aufbau eines Transkripts", "Literarische Umschrift der Lautung", "Segmentierung in Intonationsphrasen" und andere. Durch die übersichtliche Strukturierung der Lerninhalte ist auch die Voraussetzung für ein unabhängiges Selbststudium geschaffen.

Kontaktperson: Christine Mertzlufft (christine.mertzlufft(at)germanistik.uni-freiburg.de)

Webadresse: http://paul.igl.uni-freiburg.de/gat-to/

Das Bayerische Archiv für Sprachsignale (BAS)

Das Bayerische Archiv für Sprachsignale BAS erstellt und vertreibt Sprachkorpora für die Entwicklung von Sprachtechnologie sowie die phonetische und linguistische Grundlagenforschung. Zwei aktuelle Korpora sind:

1) Ph@ttSessionz ist eine Sprachdatenbank mit den Stimmen Jugendlicher, aufgenommen über das Internet an Gymnasien in Deutschland. Das Sprachmaterial besteht aus gelesenen anwendungsnahem Vokabular (Ziffern, Zahlen, Datums- und Zeitangaben), phonetisch reichen Sätzen und freien Antworten auf einfache Fragen (Was habt ihr in den letzten Ferien gemacht?).

In der ersten Ausgabe enthält die Sprachdatenbank über 110.000 Äußerungen von 864 Sprecherinnen und Sprechern im Alter von 12-20 Jahren. Sämtliche Äußerungen sind orthographisch transkribiert. Insgesamt umfasst die Sprachdatenbank 89 Stunden Sprachdaten (53 h anwendungsorientiert, 23 h phonetisch reich, 13 h spontan) in technisch hoher Qualität (Nahbesprechungs- und Raummikro, 22,05 kHz bei 16 Bit stereo). Die erfassten demographischen Angaben zu den Sprechern sind Geschlecht, Alter, Akzent, eigene und die Muttersprache der Eltern, Aufnahmeort, Größe und Gewicht.

2) ALC ist eine Sprachdatenbank mit Aufnahmen von Personen in alkoholisiertem und nüchternem Zustand. ALC ist eine Kooperation des BAS mit dem Institut für Rechtsmedizin der LMU. Die Sprachdatenbank bildet die Grundlage für empirische Untersuchungen der Stimmqualität und der Sprachleistung unter Alkoholeinfluss.

ALC enthält gelesene Items, Zungenbrecher und frei gesprochene Äußerungen. Die Aufnahmen erfolgen im stehenden Fahrzeug über ein Nahbesprechungs- und ein Raummikrofon in 44,1 kHz 16 Bit stereo. In der Endfassung soll ALC 200 verschiedene Sprecher mit einem Gesamtumfang von 2 Mio. phonetischen Segmenten enthalten.

Für beide Korpora wird die vom BAS entwickelte Software SpeechRecorder eingesetzt. Diese ist Plattform-unabhängig und frei verfügbar - besuchen Sie unsere Demo am Stand!

Kontakt: Dr. Christoph Draxler (draxler(at)phonetik.uni-muenchen.de)

Webadresse: http://www.bas.uni-muenchen.de/forschung/Bas/BasHomedeu.html

ELAN

ELAN is a multimedia annotation tool that is being developed at the Max Planck Institute for Psycholinguistics. It is written in the Java programming language and is available for Windows, Mac OS X and Linux.

With ELAN it is possible to manually create text annotations to segments of digital media files on multiple tiers (layers). A tier is a container for annotations that refer to the same kind of phenomenon. An unlimited number of tiers can be created, either as independent tier or as part of a hierarchy of interdependent tiers. In addition to free text entry, it is possible to define and apply controlled vocabularies, which are lists of predefined values for certain kinds of tiers. The annotations can be viewed in several ways, in viewers that present the data as a grid, as interlinear text, as subtitles, as running text or aligned to a time ruler. Annotations contain Unicode text and transcriptions are stored in XML format.

A first onset of semi-automatic annotation is provided in the form of an audio recognizer that can create segmentations based on pattern recognition in an audio file.

Many media file formats are supported and it is possible to associate up to 6 video files with a single annotation document. Each video can be detached from the main window to fully exploit the quality of high resolution video.

Search queries can be executed within a single file or in a user definable set of annotation files and can vary from simple substring matching to complex, structured search queries, based on temporal and/or structural (e.g. parent-child) relations. The results can be shown in concordance or frequency view and can be exported to tab-delimited text.

Files in Shoebox/Toolbox, CHAT, Transcriber, Praat or comma separated values/tab-delimited text format can be imported and exported. Output options in interlinear style comprise of printing to paper and export to interlinear text or HTML.

ELAN, its sources and documentation can be downloaded free of charge.

Kontact: han.sloetjes(at)mpi.nl

Webadresse: http://www.lat-mpi.eu/tools/tools/elan

ANNEX: ANNotation EXploration tool for web-based exploration of annotated corpus resources (incl. video, audio and text)

Manual annotation of media streams, time series data and text sequences is a time consuming work that has to be carried out in many areas of linguistics and beyond. A number of professional tools have been deployed to support researchers in their work but most of these annotation tools operate on local computers. However, since more and more language resources are stored in web-accessible archives, researchers want to take profit from the new possibilities. ANNEX was developed to fill this gap, since it offers web-based analysis of complex annotated media streams. Currently ANNEX is a view-only tool but soon it will also provide the option to modify annotations. By using ANNEX users don't have to download language resources. They can start their linguistic work by simply using a normal web-browser and freely available browser plugins.

In ANNEX there is a clear separation between server-side data processing and client-side data display. Resource files stored on the server in different annotation formats (Shoebox, CHAT, ELAN) are automatically converted to a single (and simple) XML format. The only prerequisite to use ANNEX with further annotation formats is the availability of a parser to convert these formats to the required XML format.

Data is being transmitted between the server and the client in XML and plain text formats (the latter for numeric waveform data). With this clear server-client separation it will be easy either (1) to connect the current ANNEX interface to other corpus resource servers or (2) to create several client-side user interfaces (for example to develop differently complex user interfaces or by using other client-side development technologies such as AJAX, Silverlight or JavaFX) to access the same ANNEX-based corpus resource server.

Kontact: Dr. Thomas Koller (thomas.koller(at)mpi.nl)

Webadresse: http://www.lat-mpi.eu/tools/annex/

DAT: Die Datenbankanwendung zur Analyse von Transkripten

Im Zentrum steht die praktische Vorführung einer Software zur Verwaltung, Annotation und komplexen Auswertung von Gesprächstranskripten. Das Programm stellt Werkzeuge für die Analyse von Transkripten bereit. Grundlage für die Arbeit in DAT sind importierte Transkripte, die hier mit zusätzlichen Kodierungsspuren versehen und ausgewertet werden können. Die Anwendung ist als Access-Projekt realisiert, bei dem die relationale Datenbank "SQL Server 2005 Express" für die Datenhaltung eingesetzt wird. Zusätzlich zu der Access-Version der Datenbank gibt es eine Web-Version (DATonline), die den für Auswertungen nötigen Funktionsumfang bietet.

Das Programm hat folgende Funktionsschwerpunkte:

  • Einteilung des Datenbestandes nach Forschungsprojekten
  • Allgemeine Verwaltungsfunktionen
  • Import und Export von Daten in einem XML-Format, das zu EXMARaLDA kompatibel ist
  • Verschiedene Darstellungen der Daten eines oder mehrerer Transkripte
  • Hinzufügen und Entfernen von Auswertespuren (Kodierung)
  • Definition von Kennzahlen und deren Einbeziehung in die Auswertungen
  • Verschiedene Such- und Zählfunktionen für alle Transkripte über mehrere Ebenen
  • Darstellung der Ergebnisse im HTML- und Excel-Format
  • Speicherung, Zusammenfassung und Reproduktion von Abfragen

Beim Kodieren ist eine Überwachungsfunktion aktiv, die nur solche Eingaben zulässt, die mit einem vorher festgelegten Vorrat der erlaubten Kodierzeichen übereinstimmen. Damit wird sichergestellt, dass eine spätere Suche korrekte Werte liefert. Als Erweiterung des Kodiersystems kann der Benutzer eigene Kennzahlen (z.B. "Die mittlere Satzlänge einer Spur") definieren. Diese werden anschließend automatisch berechnet und einzelnen Spuren bzw. Segmenten zugeordnet. Zur Auswertung sind Such- und Zählfunktionen für die gleichzeitige Suche auf bis zu fünf Ebenen möglich.

Kontakt: Sebastian Frank (sefrank(at)rumms.uni-mannheim.de)

Webadresse: http://www.anglistik.uni-mannheim.de/linguistik/p/5_2.html

ANVIL: Ein universelles Annotations- und Analysewerkzeug für digitale Videos

ANVIL ist ein kostenloses, universelles Forschungswerkzeug zur Annotation und Analyse digitaler Videos. Es erlaubt präzise (auf Frame-Basis), mehrspurige Annotationen gemäß eines vom Benutzer spezifizierten Schemas. Aufgrund dieser Schemas ist es unabhängig von spezifischen Theorien oder Forschungsfeldern und wird daher international in verschiedensten Bereichen wie Linguistik, Anthropologie, Gestenforschung, Mensch-Computer-Interaktion, Gebärdensprachforschung oder Computeranimation eingesetzt. Die intuitive Benutzerschnittstelle zeigt farbkodierte Elemente in ihren zeitlichen Beziehungen. Spezielle Features sind spurenübergreifende logische Verknüpfungen, gleichzeitige Betrachtung mehrerer Videos und ein Projekt-Tool zur Verwaltung mehrerer Annotationsdateien. Die Software läuft auf verschiedenen Platformen (Windows, Mac, Linux) und ist XML-basiert.

Die kommende Version von ANVIL (Version 4.9) erlaubt die dreidimensionale Anzeige von Motion-Capture-Daten und stellt neue Analysewerkzeuge bereit, wie etwa Verteilunghistogramme und Assoziationsanalyse. ANVIL ist mit über 2000 Forschungslizenzen mehr als 25 Ländern in vielen internationlen und nationalen Projekten im Einsatz und hat sich in vielen Bereichen als Quasi-Standard etabliert.

Kontakt: Dr. Michael Kipp, DFKI, (kipp(at)dfki.de)

Webadresse: http://www.anvil-software.de

ANNIS-Datenbank zur Darstellung von tief annotierten Korpora

ANNIS ist ein web-basiertes Werkzeug zur Suche, Visualisierung und Auswertung von mehrebenenannotierten Korpora. Es wurde entwickelt im Sonderforschungsbereich 632 "Informationsstruktur - Die sprachlichen Mittel der Gliederung von Äußerung, Satz und Text" (Humboldt-Universität zu Berlin/Universität Potsdam) als einheitliche Oberfläche für Daten aus unterschiedlichen Sprachen, Modi (geschriebene/gesprochene Sprache) und mit unterschiedlichen Arten von Annotationen (z.B. Glossen, Syntaxbäume, anaphorische Relationen). Die Mehrebenen-Architektur erlaubt es, dieselben Primärdaten hinsichtlich verschiedener Phänomene mit entsprechenden Expertentools zu annotieren. Dabei können durchaus überlappende und/oder konfligierende Annotationen entstehen. Alle Annotationen werden integriert repräsentiert im Austauschformat PAULA (Potsdamer Austauschformat für Linguistische Annotationen) und in die Datenbank ANNIS (Annotation von InformationsStruktur) importiert. ANNIS bietet verschiedene qualitative und quantitative Auswertungsmöglichkeiten. Z.B. ermöglicht es die Suche nach Tokens und Annotationen (auch mittels regulärer Ausdrücke), sowie deren Kombination durch verschiedene Relationen (z.B. Ko-Extension, Adjazenz, Überlappung, direkte/indirekte Dominanz etc.). Die Suchergebnisse werden entsprechend ihrer Annotationsart visualisiert (z.B. in einer Baumansicht, Partituransicht, usw.); ggf. verlinkte Audiodateien können mittels eines Mediaplayers wiedergegeben werden. Der Zugang zu Korpora ist über ein User Management geregelt, so dass Korpora für unterschiedliche Nutzer bzw. Nutzergruppen freigegeben werden können.

Kontakt: Prof. Anke Lüdeling (Anke.Luedeling(at)rz.hu-berlin.de)

Webadresse: http://www.sfb632.uni-potsdam.de/~d1/annis/