Grammatik
Texttechnologie und Datenbanken
Projektbeschreibung, Projektziele
Nutzerbestimmung, Adressaten
Theoretischer Rahmen
Methodik, Datengrundlage
Aktivitäten
Kooperation
Internet-Service des Projekts
Mitarbeiter
Publikationen
Projektbeschreibung, Projektziele
Das Projekt beschäftigt sich aus wissenschaftspraktischer Perspektive mit informations- und texttechnologischen Fragestellungen, die für die Forschungsvorhaben in der Abteilung Grammatik relevant sind. Gegenstandsbereich sind digitale Technologien, Methoden und Standards im Zusammenhang mit der Erfassung, strukturierten Beschreibung, Verwaltung, Auswertung und medialen Präsentation grammatikalischer Inhalte. Diese Inhalte umfassen einerseits textuelle und audio-visuelle Sprachdaten, andererseits hypermediale wissenschaftliche Fach- und Instruktionstexte sowie digitale Wörterbücher und Bibliografien. Letztere werden im Rahmen der Projektarbeit auch inhaltlich gepflegt. Bei der Erschließung der in der Wissensbank hinterlegten Informationen hilft ein eigens für die Bedürfnisse der maschinell unterstützten Informationsrecherche konzipiertes, fachgebietsspezifisches Wissensnetz (Grammatik-Ontologie).Im Rahmen des in der Abteilung Grammatik betriebenen Aufbaus einer korpusgestützten Grammatik des Deutschen bietet das Projekt korpuslinguistische bzw. computerlinguistische Hilfestellung.
Neben der theoretischen Fundierung und Optimierung texttechnologischer Verfahren entwickeln die Projektmitarbeiter als praxisbezogenes Ergebnis eine auf diesen Vorarbeiten basierende Grammatik-Plattform. Diese datenbankbasierte Plattform stellt eine hypermediale Autorenumgebung für grammatische Zwecke bereit und deckt darüber hinaus Funktionalitäten von Content-Management-, Workflow-Management- sowie Text-Retrieval-Systemen ab. Auch das medienübergreifende Publizieren (z.B. parallel im Print-, Online- und CDROM-Format wie z.B. im Fall der Bibliographie zur deutschen Grammatik) wird auf diese Weise auf eine technologisch einheitliche, erweiterungsfähige Basis gestellt.
Folgende Module befinden sich derzeit in Arbeit:
- Lexikographisches Redaktions- und Recherchesystem für digitale Wörterbücher (EDAS = Electronic Dictionary Administration System).
- Bibliografisches Verwaltungs- und Recherchesystem für digitale Literatursammlungen (EBIS) mit Exportmöglichkeiten in verschiedene Formate (z.B. PDF, LaTeX/BibTex, Endnote).
- Datenbankgestützte Korpusrecherche für das Projekt "Grammatische Variation im standardnahen Deutsch"
Folgende grammatische Inhalte werden im Rahmen des Projekts permanent gepflegt und erweitert:
- Grammatisches Wörterbuch sowie E-VALBU mit grammatisch relevanten Informationen zu Konnektoren, Präpositionen, Affixen und Verben (>1.000 Einträge).
- Bibliografie zur deutschen Grammatik (BDG) mit derzeit ca. 25.000 Einträgen.
- Domänenspezifische Ontologie zur deutschen Grammatik mit derzeit ca. 13.000 Termsets als Klassifikations- und Recherchebasis für die Online-Angebote der Abteilung.
- Terminologisches Wörterbuch zur Erläuterung grammatischer Termini (derzeit ca. 350 Einträge).
Nutzerbestimmung, Adressaten
Die Projektergebnisse fließen unmittelbar in die praktischen Arbeiten anderer Abteilungsprojekte ein. Darüber hinaus verstehen sich die im Rahmen des Projekts gepflegten Online-Wörterbücher, Bibliografien und Wissensnetze (Ontologien) als elementares Informationsangebot für alle grammatisch Interessierten. Dabei werden durch situations- und benutzeradaptive Ansätze einem breiten Nutzerspektrum (Forschende, Studierende, Vertreter sprachorientierter Berufe, Laien) Rechnung getragen.
Theoretischer Rahmen
Die Texttechnologie teilt sich mit der allgemeinen Sprachwissenschaft den gemeinsamen Untersuchungsgegenstand, nämlich die Beschäftigung mit natürlicher Sprache. Allerdings konzentriert sie sich dabei auf deren elektronische Manifestation in Form digitaler Texte. Das Erkenntnisinteresse betrifft gleichermaßen Syntax, Bedeutung und Verwendung: Wie lassen sich Textstrukturen und Referenzbeziehungen mit Hilfe spezieller Grammatiken modellieren, welche Repräsentationsmodelle unterstützen eine effiziente Informationsextraktion usw. Entsprechend breit gefächert sind die Anknüpfungspunkte an andere linguistische Teildisziplinen.
Die Grammatikforschung profitiert auf mehreren Ebenen vom Einsatz texttechnologischer Verfahren: Der Einsatz von Markup-Sprachen bei der Anreicherung digitaler Textsammlungen um linguistische Meta-Informationen oder bei der Strukturierung grammatischer Wörterbücher erhöht deren praktischen Nutzwert, erleichtert die statistische Auswertung von Korrelationen und ermöglicht dadurch die Evaluierung von Theorien. Elektronische Thesauri und Wissensnetze bzw. Ontologien befördern darüber hinaus die terminologische Konsistenz und Erschließung von Fachpublikationen.
Methodik, Datengrundlage
Zentrales Anliegen ist die Verwendung moderner informations- und texttechnologischer Methoden und Standards, z.B. objekt-relationale Datenbanksysteme, standardisierte Beschreibungssprachen auf Basis von XML, Wort- und Wissensnetze, Multimedia-Formate etc.
Aktivitäten
Präsentationen des Projekts finden regelmäßig im Rahmen des IDS-Kolloquiums, des IDS-Gesprächskreises, bei den Jahrestagungen des IDS und anderen Fachtagungen statt, aktuell z.B. auf der DGFS-Jahrestagung 2008, der 30. European Conference on Information Retrieval (ECIR) 2008 sowie der Fifth IASTED European Conference on Internet and Multimedia Systems and Applications (EuroIMSA) 2009.
Kooperation
Die Projektmitarbeiter sind bei computerlinguistischen bzw. texttechnologischen Fragestellungen Ansprechpartner für alle laufenden Abteilungsprojekte. Intensive Kooperationen bestehen insbesondere mit GRAMMIS, ProGr@mm/EuroGr@mm und der Korpusgrammatik sowie mit anderen Institutsprojekten mit computerlinguistischem Bezug. Beispielhaft hierfür steht die abteilungsübergreifende Konzeption der Datenbanktechnologie für die Verwaltung elektronischer Wörterbücher und Bibliografien (EDAS/EBIS). Auch abteilungsintern existieren vielfältige Vernetzungen: So werden die im Rahmen des Projekts gepflegten Bibliografien sowie das Wissensnetz aus anderen Projekten heraus genutzt; inhaltliche Erweiterungen zu den terminologischen und grammatischen Wörterbüchern werden von Mitarbeitern anderer Abteilungsprojekte beigesteuert.
Internet-Service des Projekts
Ergebnisse und Entwicklungen der Projektarbeit fließen unmittelbar in folgende Online-Angebote ein:
- Grammatisches Informationssystem GRAMMIS
- Propädeutische Grammatik ProGr@mm
- Valenzwörterbuch E-VALBU
- Online-Wortschatz-Informationssystem Deutsch (OWID)
- Bibliografie zur deutschen Grammatik (BDG)
- Bibliografie zur deutschen Rechtschreibung (in Arbeit)
- Online-Bibliografie zur elektronischen Lexikografie (OBELEX)
- Bibliografie zur Gesprächsforschung (BGF)
Mitarbeiter
Noah Bubenhofer
Helmut Frosch (bis 2009)
Svetlana Marks (studentische Hilfskraft)
Roman Schneider
Ineta Sejane (bis 2009)
Publikationen
2009
Bubenhofer, Noah (2009): Sprachgebrauchsmuster. Korpuslinguistik als Methode der Diskurs- und Kulturanalyse. (Sprache und Wissen 4), Berlin/New York, de Gruyter.
Bubenhofer, Noah/Scharloth, Joachim (im Druck): Kontext korpuslinguistisch: Die induktive Berechnung von Sprachgebrauchsmustern in großen Textkorpora. In: Text-Zeichen und Kon-Texte. Studien zu soziokulturellen Konstellationen literalen Handelns, hg. v. Peter Klotz, Paul R. Portmann-Tselikas u. Georg Weidacher, Tübingen, 2009.
Schneider, Roman (2009): Information Retrieval mit Oracle Text. In: iX - Magazin für professionelle Informationstechnik, Heft 9/2009. S. 144-147.
Gottron, Thomas / Schneider, Roman (2009): A Hybrid Approach to Statistical and Semantical Analysis of Web Documents. In: Merabti, Madjid (Hg.): Proceedings of The Fifth IASTED European Conference on Internet and Multimedia Systems and Applications (EuroIMSA) 2009, Cambridge. Anaheim, Calgary, Zürich: Acta Press. S. 115-120.
Müller-Spitzer, Carolin / Schneider, Roman (2009): Ein XML-basiertes Datenbanksystem für digitale Wörterbücher. Ein Werkstattbericht aus dem Institut für Deutsche Sprache. In: it - Information Technology 4/2009, S. 197-206.
Sejane, Ineta (2009): Entwurf einer Ontologie grammatischer Termini. In: Henn-Memmesheimer, Beate/Franz, Joachim (Hgg.): Die Ordnung des Standard und die Differenzierung der Diskurse. Akten des 41. Linguistischen Kolloquiums in Mannheim 2006. Frankfurt a.M.: Lang. S. 695-712.
2008
Frosch, Helmut / Schneider, Roman / Strecker, Bruno (2008): Bibliographie zur deutschen Grammatik. 2003-2007, Studien zur deutschen Grammatik, Band 76. Tübingen: Stauffenburg.
Schneider, Roman (2008): E-VALBU: Advanced SQL/XML processing of dictionary data using an object-relational XML database. In: SDV - Sprache und Datenverarbeitung/International Journal for Language Data Processing. Vol. 32.1/2008. S. 35-46.
Schneider, Roman (2008): Web 3.0 ante portas? Integration von Social Web und Semantic Web. In: Zerfaß, Ansgar / Welker, Martin / Schmidt, Jan (Hgs.): Kommunikation, Partizipation und Wirkungen im Social Web, Band 1, Köln: Herbert von Halem Verlag. S. 112-128.
Schneider, Roman (2008): Frequency & Markup Analysis for Terminological Ontologies. In: Proceedings of Workshop on Exploiting Semantic Annotations for Information Retrieval (ESAIR 2008), European Conference on Information Retrieval (ECIR), Glasgow, S. 83-87.
Sejane, Ineta (2008): Database-Driven Access to Heterogeneous XML-Contents Using Domain Ontology of German Grammar. In: SDV - Sprache und Datenverarbeitung/International Journal for Language Data Processing. Vol. 32.1/2008. S. 71-87.
2007
Frosch, Helmut / Schneider, Roman / Strecker, Bruno / Eisenberg, Peter (2007): Bibliographie zur deutschen Grammatik. 1994-2002, Studien zur deutschen Grammatik, Band 68. Tübingen: Stauffenburg. 2. unv. Aufl.
Schneider, Roman (2007): A Database-driven Ontology for German Grammar. In: Rehm, Georg / Witt, Andreas / Lemnitzer, Lothar (Hgs.): Datenstrukturen für linguistische Ressourcen und ihre Anwendungen. Data Structures for Linguistic Resources and Applications. Proceedings of the Biennial GLDV Conference 2007, Tübingen: Narr. S. 305-314.
Schneider, Roman (2007): Oracle 11g in der Praxis. In: iX - Magazin für professionelle Informationstechnik, Heft 12/2007. S. 86-90.
2006
Frosch, Helmut (2006): Zur Semantik relationaler Nomina. In: Breindl, Eva / Gunkel, Lutz / Strecker, Bruno (Hgs.): Grammatische Untersuchungen. Analysen und Reflexionen. Tübingen: Narr. S. 133-139.
Schneider, Roman (2006): Eine Ontologie für die Grammatik. Modellierung und Einsatzgebiete domänenspezifischer Wissensstrukturen. In: Butt, Miriam (Hg.): Proceedings of KONVENS 2006 (Konferenz zur Verarbeitung natürlicher Systeme), Universität Konstanz. S. 125-129.
Schneider, Roman (2006): Texttechnologie und Grammatik. In: Breindl, Eva / Gunkel, Lutz / Strecker, Bruno (Hgs.): Grammatische Untersuchungen. Analysen und Reflexionen. Tübingen: Narr. S. 601-616.
Schneider, Roman (2006): All inclusive. Native XML-Unterstützung in Oracle. In: iX - Magazin für professionelle Informationstechnik, Heft 12/2006. S. 146-150.
Sejane, Ineta / Schneider, Roman (2006): Eine Ontologie zur deutschen Grammatik. In: Sprachreport. Informationen und Meinungen zur deutschen Sprache, Heft 4/2006. S. 27-30.
2005
Frosch, Helmut (2005): BDG. Die Bibliografie zur deutschen Grammatik. In: Sprachreport. Informationen und Meinungen zur deutschen Sprache, Heft 3/2005. S. 15-16.
2004
Schneider, Roman (2004): Benutzeradaptive Systeme im Internet: Informieren und Lernen mit GRAMMIS und ProGr@mm. Mannheim: IDS (=amades 4/04).
Zum Bestellschein
2003
Frosch, Helmut / Schneider, Roman / Strecker, Bruno / Eisenberg, Peter (2003): Bibliographie zur deutschen Grammatik. 1994-2002, Studien zur deutschen Grammatik, Band 68. Tübingen: Stauffenburg.
