Leistungsmerkmale des COSMAS II-Systems
COSMAS II hat alle Leistungen, die den Grundstock eines lexikografischen Korpusrecherchewerkzeugs bilden, von seinem Vorgängersystem COSMAS I übernommen.
Darunter fallen bewährte und geschätzte Funktionalitäten wie z.B.
- virtuelle Korpuskomposition,
- Suchanfragen,
- Lemmatisierung,
- morphosyntaktische Annotationen,
- Ergebnispräsentation und Sortiermöglichkeiten,
- Kookkurrenzanalyse und -clustering oder
- chronologische Sortierung von Rechercheergebnissen.
COSMAS II nutzt für sprachwissenschaftliche und andere sprachbezogene Forschungsvorhaben (wie zuvor COSMAS I) die Textkorpora des IDS.
Verbesserung und Ausbau bekannter Funktionalitäten
- Virtuelle Korpuskomposition: statt einem virtuellen Korpus können nun unbegrenzt viele virtuelle Korpora nicht nur gebildet, sondern auch verwaltet werden. mehr...
- Suchanfragen: neben der zeilenorientierten Eingabe steht auch eine grafische Suchanfragekomponente zur Verfügung. Außerdem wurden die Funktionalitäten für das Recherchieren mit ling. Annotationen (mehr...) ausgebaut und neue die Suchanfragesprache erweitert (mehr...).
- Sortiermöglichkeiten: neben der Sortierung nach Jahreszahlen kann auch nach Monaten bzw. Tagen und Jahrzehnten sortiert werden. Zusätzlich zur Dokumentenansicht sind die Korpus-, Quellen- bzw. Länderansicht möglich sowie demnächst auch eine Textsortenansicht. mehr...
- Ergebnisse: die Ergebnispräsentationen und die Auswertung der Treffer wurden erweitert (mehr...)
- Häufigkeitsmaße: die bereits in COSMAS I in einfacherer Form vorhandenen relativen Häufigkeiten werden neu interpretiert und erweitert wieder angeboten und um die Maße für Differenzkoeffizient sowie Häufigkeitsklassen ergänzt.
- Konfiguration von Archiven: die konfigurierbaren Optionen der Archive wurden erweitert, um unterschiedliche Nutzungsrechte zu ermöglichen mehr....
- Kontrollmechanismen des Servers: die Kontrollmöglichkeiten des Servers wurden erweitert, um einen reibungslosen Betrieb zu gewährleisten mehr....
Neu hinzugekommene Funktionalitäten
- Standardisiertes Datenformat: Als Grundlage für die Indizierung der Textkorpora dient das SGML-basierte Korpusauszeichungsformat CES (Corpus Encoding Standard), seit April 2010 das XML-basierte XCES.
- Textannotationen:
Annotationen können unterschiedliche Ebenen betreffen,
wie z.B. die Texttypographie, die Dokumentstruktur oder
strukturierte linguistische Informationen
(mehr...).
Hinsichtlich der Typologie kennt COSMAS II keine Beschränkungen, solange die Annotationen in einem standardisierten Format wie z.B. CES/SGML bzw. XCES/XML kodiert sind. - Multi-Lingualität: COSMAS II kann in Texten aus allen 12 in ISO 8859-1 enthaltenen westeuropäischen Sprachen nicht nur recherchieren, sondern diese auch verwalten.
- Multi-Protokollfähigkeit:
zur Zeit der Konzeption von COSMAS II war noch nicht abzusehen,
welches (Netzwerk-)Transportprotokoll sich durchsetzen würde.
Neben TCP-Sockets waren damals noch die ISO/OSI-Standards
TLI bzw. XTI im Rennen.
Obwohl heutzutage nicht mehr gefragt, sind die letzten beiden Protokolle wie vor aktivierbar. Dementsprechend kann die Netzwerkschnittstelle problemlos um andere Transportprotokolle erweitert werden. - Client/Server-Architektur: eine wohldefinierte Programmierschnittstelle ermöglicht das Aufsetzen von verschiedenen Applikationen - wie z.B. COSMAS IIwin, COSMAS IIweb oder COSMAS IIscript - auf ein- und demselben COSMAS II-Server.
- Grafische Benutzeroberflächen:
z.B COSMAS IIwin
unter WINDOWS 9x/NT/2000/XP oder
COSMAS IIweb
im WWW.
Eine Stärke dieser Benutzeroberflächen besteht in der Art, wie Suchanfragen grafisch formuliert werden können. mehr... - Export: Kumulieren von manuell aktivierten Treffern aus verschiedenen Ergebnisansichten zum Exportieren einer gezielt reduzierten Treffermenge (mehr...).
- Sekundäre Sortiermöglichkeiten: neben den bekannten (zeilenweisen) Sortierungen sind auf den Seiten für die Korpus- und Ergebnispräsentationen auch spaltenweise Sortierungen möglich, z.B. nach Trefferhäufigkeit, Textanzahl, Bezeichnungen o.ä.
- Text-Ton-Alignment: Zuordnung von digitalisierten gesprochenen Äußerungen zu deren Audio-Dateien, so dass Treffer abgespielt werden können.
- Berücksichtigung von Besonderheiten verschrifteter gesprochener Sprache: Simultanpassagen, d.h. Gleichzeitigkeit von Äußerungen, Fragmentierung von Wörtern, nicht-lexikalisierte Äußerungen, Pausen usw.; sprecherbezogener Wortabstandsoperator.