Corpus Search, Management and Analysis System

Cyril Belica: The Overall Corpus Linguistic Concept of the COSMAS Platform

1. Scientific Methodological Premises, Principles and Approaches of Empirical Anchoring of Corpus-based Linguistic Investigations

  • Principle of minimal assumption (1991)

    • minimum assumption -- J.Sinclair
    • Low hypothesis corpus survey
    • A Posteriori linguistic interpretation
    • Methodological and technical consequences
      • Language independence
      • Managing annotations of discontinuous text areas
      • Simultaneous management of any number of, even competing, annotation layers
      • ambiguous, parameterisable tokenisation (1993)
      • corpus-appropriate, norm-independent lemmatisation (1994)
  • Principle of very large corpora

    • more data is better data -- R. Mercer / K. Church
    • as an indispensable empirical basis for the observation of language usage
    • 28 million words of text in 1991
    • over 2 billion text words in 2005
    • technical consequences
      • several adaptive indexing methods (1997)
      • incremental indexation (1993)
      • hardware and software parallelization (1998)
      • results cache (1999)
      • optimization of Proximity Logic (1997)
  • Principle of innocence of copyright

    • empirical text material fully protected by copyright

  • Principle of the virtual corpora (1991)

    • Representativeness
      • in the phase of the acquisition of the corpus, representativeness is not sought, but
        • stratification
        • quantity
        • integrity of copyright
        • extratextual documentation
      • user-defined representativeness is achieved in the corpus use phase
      • through dynamic user composition of virtual corpora
    • Composition of virtual corpora based on
      • text-external criteria (1992)
      • text-internal criteria (1992)
      • distributional properties
    • Monitor Corpora (1993)
    • Technical consequences
      • predefined corpora (1991)
      • user-definable corpora (1992)
        • save (1992)
        • load (1992)
        • naming (1992)
  • Sampling principle (1992)

    • reproducibility of the results
    • extrapolability of the results
    • technical consequences
      • random selection of corpus texts (1992)
      • random selection of matches (1993)
  • Analysis paradigm instead of consultation paradigm (1994)

    • Identifying recurrent constituents of language use from empirical language data
    • lexical, syntactic and semantic analysis not separated from each other
    • investigation of probabilistic, preference-relational structures
    • use of mathematical-statistical, pattern-oriented, inductive and data-driven methods
      • co-competitive analysis and clustering (1995)
      • neologism recognition (1996)
      • contrastive studies (1996) ("omnis determinatio est negatio")
        • methodological and technical implications
          • several virtual corpora activated at the same time
      • multidimensional analysis (1998)
      • autofocusing the context of analysis (1999)
      • identification of syntagmatic patterns (2000)
      • analysis of co-occurrence profiles (2001)
      • release of the web version of the ccdb cookery database (2001)
      • analysis of use aspects (2003)
      • modelling of sematic proximity (2004)
      • hierarchical and topological clustering of co-occurrence profiles (2005)
      • Contrasting of close synonyms (2006)
  • Abstract text model (1993)

    • technical consequences
      • SGML-based (1993)
      • independence of indexing from the external text model (DTD)
      • handling discontinuous text areas
      • annotations are separated from the text, are projected onto the text
      • processing morphosyntactic annotations (1997)
      • text model-sensitive presentation of annotations (see multimedia suitability)
  • Principle of multilingualism (1995)

    • language independence
    • exchangeable language-specific modules
  • IT implementation consistently aligned to the above-mentioned scientific methodological principles

    • Modularity
      • COSMAS Core (1992)
      • language-independent modules (1992)
      • language-specific modules (1992)
      • library of API services for other application programs (1994)
      • batch processing (1996)
    • Client-server concept
      • network capability (1993)
      • web connectivity (1996)
    • line-oriented search query language (1991)
      • logical operators
      • hit-including and hit-excluding distance operators
      • maximum and interval distance
      • lower / upper case
      • lemmatization
      • annotations
      • previous queries
      • previous search results
      • KWIC filtering
      • word form and lemma lists
      • expansion of the search objects
    • graphical drag&drop search query language (1994)
      • syntax-sensitive synoptic nesting of partial search queries
      • search query palette
      • search query macros
    • variable proximity metric (1991)
      • implicit
        • Wortsegment-, Wort-, Satz-, Absatz- und Textmetrik
      • explicit
        • SGML annotations
        • model of time and time metric for audio annotations
    • presentation of results in stages: text overview, concordance (KWIC), voucher (1991)
    • various
      • unified header and text search (1994)
      • results stack (1992)
      • import of word lists and search queries (1993)
      • various export options (1992)
      • graphical representation of chronological information (2000)
      • display of source references with page numbers (1992)
    • multimedia suitability
      • interface to the external SGML/XML viewer
      • interface to the multimedia player
    • organisation of data
      • any number of separate corpus archives (1994)
    • administration
      • user registration (2002)
      • user management (1996)
      • corpus management (1992)
      • administration of access rights (1993)

to the top of the page

2. COSMAS-I Publications, Reports, Lectures, Workshops, Presentations and Other Activities

Belica, Cyril/Neumann, Robert/al-Wadi, Doris: Computerlinguistik mit COSMAS. Der Computer als aktuelles Werkzeug des Korpuslinguisten: Methoden - Tools - Korpora. Symposion. 15.-17.9.1992. Mannheim.

Belica, Cyril (1992). Korpusaktivitäten des Instituts für deutsche Sprache. Workshop "Repräsentatives Korpus der deutschen Gegenwartssprache". Universität Bonn.

Belica, Cyril (1992). Automatisches Lemmatisierungsverfahren und Kompositazerlegung. Bericht. IDS Mannheim.

Belica, Cyril (1993). Text Encoding Initiative: A Feasibility Study. Forschungsbericht des NERC-Projekts. Luxemburg.

Belica, Cyril/al-Wadi, Doris (1993): COSMAS-System-Präsentation. 29. Jahrestagung des Instituts für Deutsche Sprache. Mannheim.

Belica, Cyril (1993). Das Lemmatisierungsverfahren "Flexionsanalyse und Kompositazerlegung". Kolloquium. IDS Mannheim.

Jüttner, Irmtraud/al-Wadi, Doris (1993): Corpus Storage, Maintenance, and Access System (COSMAS) für große Textsammlungen: Ein Entwurf und seine Realisierung. 24. Jahrestagung der Gesellschaft für Angewandte Linguistik (GAL). Leipzig .

Aarts, Jan/Belica, Cyril/ Cloeren, Jan/Gross, Maurice/ Moulin, Andre/Neumann, Robert/Sinclair, John/van Sterkenburg, P.G.J. (1993): MECOLB Project Proposal. MLAP Call 1993: Exploratory Actions for the Language Industry. Feasibility and Validation Study. Luxembourg.

Jüttner, Irmtraud (1993-2001) / al-Wadi, Doris (1993-1996): Zahlreiche Präsentationen von COSMAS vor Gästen aus wissenschaftlichen und politischen Kreisen sowie vor Schüler- und Studentengruppen.

Jüttner, Irmtraud (1993-2001) / al-Wadi, Doris (1993-1996): Betreuung und Anleitung von zahlreichen Wissenschaftlern aus dem In- und Ausland bei der Anwendung von COSMAS.

Jüttner, Irmtraud (1993-2001) / al-Wadi, Doris (1993-1996):  Durchführung zahlreicher Auftragsrecherchen mit COSMAS für Wissenschaftler aus dem In- und Ausland (bis zum WWW-Zugang 1996).

al-Wadi, Doris (1993-2002): Erarbeitung und kontinuierliche Pflege der Informationsmaterialien zu COSMAS I.

al-Wadi, Doris (1994): COSMAS - Ein Computersystem für den Zugriff auf Textkorpora, Version R.1.3-1, Benutzerhandbuch. IDS Mannheim.

Belica, Cyril (1994). A German Lemmatizer. Final Report MLAP93-21/WP2. Luxemburg.

Belica, Cyril (1994). Automatische Ermittlung von Neologismen-Kandidaten im Wendekorpus. Kolloquium "Neologie". IDS Mannheim.

al-Wadi, Doris (1994): Praktische Einführung in COSMAS. Fallstudien zu sprachlichen Fragestellungen. COSMAS-Workshop im Rahmen des EU-Projektes MECOLB (Multilingual Environment for Corpus-Based Lexicon Building). IDS Mannheim.

Belica, Cyril (1994). Moderne Methoden der Korpuslinguistik. Statistische Kollokationsanalyse und -clustering. Workshop "Sprachstrukturen". Uttenreuth.

Belica, Cyril/al-Wadi, Doris (1994). COSMAS - Ein Computersystem für den Zugriff auf große Textkorpora. Vorführung im Rahmen der Kulturbörse zum Deutschen Germanistentag. Aachen.

Belica, Cyril (1995). Statistische Analyse von Sprachstrukturen in Korpora. Tagung des Arbeitskreises "Korpora" der GLDV. Stuttgart.

Belica, Cyril (1995). Statistische Kollokationsanalyse und -clustering. Korpuslinguistische Analysemethode.

Belica, Cyril (1995). Statistische Kollokationsanalyse. Kolloquium "Entwicklungen in der Korpuslinguistik: Ein Neuer Korpusbegriff und seine Methoden." Mannheim.

Belica, Cyril (1995). Analyseparadigma der Korpuslinguistik: Statistische Kollokationsanalyse. Kurs an der Herbstschule der GLDV mit dem Thema: Moderne Methoden der Corpusanalyse. Institut für Kommunikationsforschung und Phonetik der Universität Bonn.

al-Wadi, Doris (1995): Statistischer Zugriff auf Korpora: Ein Arbeitsumfeld. Im Rahmen der GLDV-Herbstschule '95 mit dem Thema: Moderne Methoden der Corpusanalyse. Institut für Kommunikationsforschung und Phonetik der Universität Bonn.

Belica, Cyril (1995). Corpus Access Tools. Tagung der MECOLB Academic Development Group. IDS Mannheim.

Belica, Cyril (1995). Cross-Features of COSMAS-II. MECOLB End Review. IDS Mannheim.

Belica, Cyril (1996): Statistische Analyse von Zeitstrukturen in Korpora. In: LDV-INFO 8. Mannheim. S. 86-95.

Belica, Cyril (1996): Analysis of Temporal Changes in Corpora. In: International Journal of Corpus Linguistics Vol. 1(1). Amsterdam/Philadelphia. S. 61-73.

Belica, Cyril (1997): Korpuslinguistik als Arbeitsfeld der LDV: Korpora und ihre Methoden. In: Unterlagen zur Evaluation der Zentralen Arbeitsstelle Linguistische Datenverarbeitung des IDS im März 1997. IDS Mannheim.

Belica, Cyril/Cloeren, Jan (1997): Pilotstudie "Korpusbasierte Validierung von Wörterbüchern". IDS Mannheim.

Belica, Cyril (1997): Statistische Analyse von Zeitstrukturen in Korpora. In: Teubert, Wolfgang, Hg. Neologie und Korpus. Tübingen: Narr. 31-42.

Belica, Cyril (1998): Workshop "COSMAS I im World Wide Web". Rahmenprogramm der 33. Jahrestagung des IDS, 10. März 1998. Mannheim.

Belica, Cyril (1998): Workshop "Morphosyntaktische Annotationen in COSMAS I". Rahmenprogramm der 33. Jahrestagung des IDS, 11. März 1998. Mannheim.

Belica, Cyril/Cloeren, Jan (1998): Studie "Korpusbasierte Validierung von Wörterbüchern". IDS Mannheim.

Belica, Cyril/al-Wadi, Doris (1999): COSMAS im Internet. System-Präsentation. 35. Jahrestagung des Instituts für Deutsche Sprache. Mannheim.

Belica, Cyril/Lawson, Ann (1999): Improving Dictionary Coverage: Conclusions drawn from a corpus-based validation study. Vortrag, International Conference PALC'99. University of Lodz, 15-18 April 1999.

Belica, Cyril (2000): Korpustechnologie am IDS. Vortrag am 4. April 2000. IDS Mannheim.

Belica, Cyril (2000): COSMAS-Plattform. Workshop am 12. April 2000. IDS Mannheim.

Jüttner, Irmtraud (2000): COSMAS-Korpora: Akquisition von digitalisierten Texten und Problematik des Urheberrechts. Kolloquium. IDS Mannheim.

al-Wadi, Doris (2000): COSMAS-Korpora: zu ihrer Aufbereitung und Dokumentation. Kolloquium. IDS Mannheim.

Belica, Cyril (2000): Kookkurrenzanalyse. Vortrag am 29. Juni 2000. IDS Mannheim.

Belica, Cyril (2001): Kookkurrenzdatenbank CCDB - Eine korpuslinguistische Denk- und Experimentierplattform für die Erforschung und theoretische Begründung von systemisch-strukturellen Eigenschaften von Kohäsionsrelationen zwischen den Konstituenten des Sprachgebrauchs.

Anmerkung: Eine gelungene Nachzeichnung von prägenden Konturen des korpuslinguistischen Gesamtkonzepts der COSMAS-Plattform der Neunzigerjahre bietet - als Einführung zu ihrer Arbeit über linguistische Klassifikation usueller Wortverbindungen - außerdem

Steyer, Kathrin (2004): Kookkurrenz. Korpusmethodik, linguistisches Modell, lexikografische Perspektiven. In: Steyer, Kathrin (Hrsg.): Wortverbindungen - mehr oder weniger fest. Berlin/New York. (= Jahrbücher des Instituts für Deutsche Sprache, 2003), S. 87-116.

to the top of the page


Cyril Belica <belica@ids-...>