Corpus Linguistics Programme Area

ResponsibleDr. Marc Kupietz
Contact: corpuslinguistics@ids-mannheim.de

What is Corpus Linguistics?

The aim of corpus linguistics is to gain new insights into the structure, principles, features and functions of language through exploratory analysis of very large data collections of naturally-occurring language.

Research subject

At the IDS, in the programme area of corpus linguistics, a number of methodological research aims are being formulated which focus on progress in the development of corpus-driven, structure-discovering analysis methods, taking up different fundamental questions of descriptive linguistics, while keeping the theoretical background in mind. By using systematic generalisations of the thus acquired insights, the evaluation of existing, and the formulation of new linguistic hypotheses and formal models is sought.

The results of communication processes recorded in corpora are taken as both the empirical foundation for exploratory analysis and the inductive strategy of generalisation, which aims at theory formation.Although this approach sets out from lexical units and their contexts, here the lexical, syntactical and semantic levels are not separate from each other: The term collocation, extended by the terms variance and polynominality and operationalised by means of mathematical-statistical pattern-oriented methods in empirical language data, plays a fundamental role in the lexicon-syntax continuum postulated above. The purpose of this approach is to uncover laws of preference relation, which are characterised – among others – by the fact that they do not primarily vary in a rule-based manner, but depending on pragmatic, linguistic and extralinguistic factors. Moreover, subtle linguistic structures, which are not accessible to the linguistic intuition of individual language users, can only be traced and detected by analysing large amounts of data.

Aims

  • The programme area is responsible for the continuous sampling of contemporary written German language usage in the Mannheim German Reference Corpus. 
  • Starting from fundamental considerations on linguistic theory formation, a methodology is developed, based on mathematical-statistical methods and techniques for their interpretation.
  • The generalisations obtained by working on this methodological research are reflected upon on a scientific level and are brought into the discussion of linguistic theory formation.
  • Furthermore, the developed methodology is introduced into linguistic research and often applied in collaboration with other - sometimes external – projects in order to identify and describe multiword expressions and other linguistic structures of preference relation.

Current main research subjects of the programme area across the various projects:

  • Scientific theoretical principles of linguistics
  • Reflections on language as a research subject

Projects

<link kl/projekte>see project page
</link>

Programme Area Information for Download

·                   

Forschungsgegenstand

Vor diesem theoretischen Hintergrund wird im Programmbereich Korpuslinguistik des IDS einerseits eine Reihe von methodologischen Forschungszielen formuliert, die auf Fortschritte bei der Entwicklung von strukturentdeckenden korpusanalytischen Methoden ausgerichtet sind und verschiedene grundlegende Fragestellungen der deskriptiven Sprachwissenschaft aufgreifen. Andererseits wird durch systematische Verallgemeinerungen der so gewonnenen Erkenntnisse die Beurteilung bestehender und die Formulierung neuer, empirisch fundierter linguistischer Hypothesen und formaler Modelle angestrebt.

Die in Korpora aufgezeichneten Resultate von Kommunikationsprozessen werden dabei als empirische Grundlage sowohl für die explorative Analyse als auch für die induktive, auf Theoriebildung zielende Generalisierungsstrategie verstanden. Obwohl dieser Ansatz von lexikalischen Einheiten und deren Kontexten ausgeht, sind hier die lexikalische, syntaktische und semantische Ebene nicht voneinander getrennt: Eine fundamentale Rolle im postulierten Lexikon-Syntax-Kontinuum fällt dabei dem mit Hilfe von mathematisch-statistischen, musterorientierten Methoden in empirischen Sprachdaten operationalisierten und um Varianz und Vielgliedrigkeit erweiterten Begriff der Kookkurrenz zu. Diese Herangehensweise bezweckt das Aufdecken präferenzrelationaler Gesetzmäßigkeiten, die unter anderem dadurch gekennzeichnet sind, dass sie in Abhängigkeit von pragmatischen, sprachlichen und außersprachlichen Faktoren nicht primär regelbasiert variieren. Es können außerdem auch subtile sprachliche Strukturen aufgespürt werden, die dem Sprachgefühl individueller Sprachteilnehmer unzugänglich sind und erst durch die Analyse großer Datenmengen erschlossen werden können.

Ziele

  • Der Programmbereich ist am IDS dafür verantwortlich, den deutschen Schriftsprachgebrauch beständig und in angemessener Weise stichprobenartig im Deutschen Referenzkorpus zu dokumentieren.

  • Ausgehend von grundsätzlichen Überlegungen zur linguistischen Theoriebildung wird eine auf mathematisch-statistischen Methoden basierende Methodik der Korpusanalyse und -erschließung erarbeitet.

  • Die bei dieser methodologischen Forschungsarbeit gewonnenen Generalisierungen werden auf wissenschaftstheoretischer Ebene reflektiert und in die Diskussion der linguistischen Theoriebildung eingebracht.

  • Darüber hinaus wird die erarbeitete Methodik in Kooperationen mit anderen, z.T. externen Projekten zur Gewinnung und linguistischen Beschreibung usueller Wortverbindungen und anderer präferenzrelationaler Strukturen eingebracht.

Aktuelle projektübergreifende Forschungsschwerpunkte des Programmbereichs

  • Wissenschaftstheoretische Grundlagen der Sprachwissenschaft

  • Reflexionen über den Forschungsgegenstand Sprache

Projekte