Programmbereich Korpuslinguistik
Kontakt:
<korpuslinguistik@ids-...>
Leitung:
Cyril Belica <belica@ids-...>
Wissenschaftliche Mitarbeiter:
Dr. Marc Kupietz <kupietz@ids-...>
Dr. Harald Lüngen <luengen@ids-...>
Rainer Perkuhn <perkuhn@ids-...>
Wissenschaftliche Hilfskräfte:
z.Z. keine
Studentische Hilfskräfte:
Sophie Hennig
Programmbereich Korpuslinguistik
Methoden der Korpusanalyse und -erschließung
DeReWo – Korpusbasierte Grund-/Wortformenlisten
In diesem Teilprojekt entwickeln wir Verfahren, mit deren Hilfe man auf der Grundlage beliebiger virtueller Korpora häufigkeitsbasierte Grund- und Wortformenranglisten erstellen kann. Durch die Anwendung dieser Verfahren auf das Deutsche Referenzkorpus DeReKo generieren wir verschiedenartige Grund- und Wortformenlisten des deutschen Sprachgebrauchs, z.B. die Lemmakandidatenliste mit 350.000 Einträgen für elexiko – das Online-Wörterbuch zur deutschen Gegenwartssprache.
Aktuelle Arbeitsschwerpunkte
- Schreibweisenzuordnung
- paradigmatische Zuordnung
- zeitliche/regionale/texttypologische u.ä. Differenzierung
- Sonderfälle
- Qualitätssicherung
Aktuell zum Download verfügbare DeReWo-Grund-/Wortformenlisten
Das Institut für Deutsche Sprache erreichen immer wieder Anfragen nach "den häufigsten deutschen Wörtern" in der Annahme, dass derartige Wünsche klar genug formuliert und daher leicht zu beantworten sind. Mit der Veröffentlichung der DeReWo-Grund-/Wortformenlisten bemühen wir uns einen Kompromiss zu finden zwischen der faszinierenden Vielfalt unserer sprachlichen Realität und dem berechtigten Wunsch nach ihrer möglichst kompakten, wenn auch teilweise vereinfachenden Beschreibung.
Mithilfe allgemeiner Anmerkungen wollen wir Ihnen einen Überblick über die Problembereiche vermitteln, die bei der Erstellung und Nutzung derartiger Listen relevant sind und mit denen wir uns auseinandergesetzt haben. Die allgemeninen Anmerkungen sind in ihrer jeweiligen Fassung den Archiven beigelegt, die aktuelle Fassung können Sie auch hier direkt herunterladen.
Neben den allgemeinen Anmerkungen liegt jeder DeReWo-Liste zusätzlich eine ausführliche produktspezifische Dokumentation bei. Diese orientiert sich in ihrer Struktur an den allgemeinen Anmerkungen und soll Ihnen dabei helfen, die jeweils gewählte Sprachbetrachtungsperspektive und die daraus resultierenden Vereinfachungen und Folgen für die Interpretation und Handhabung der Liste nachzuvollziehen.
| Bezeichung | Typ | Anzahl Einträge | veröffentlicht am | |
|---|---|---|---|---|
| derewo-v-ww-bll-250000g-2011-12-31-0.1 | Grundformliste | 250.000 | 31. Dezember 2011 | download |
| derewo-v-40000g-2009-12-31-0.1 | Grundformliste | 40.000 | 31. Dezember 2009 | download |
| derewo-v-100000t-2009-04-30-0.1 | Wortformliste | 100.000 | 12. Mai 2009 | download |
| derewo-v-30000g-2007-12-31-0.1 | Grundformliste | 30.000 | 31. Dezember 2007 | download |
- Die Nutzung der DeReWo-Listen ohne Kenntnis der dazugehörigen Dokumentation ist wissenschaftlich unseriös.
- Die Referenzierung oder die Weitergabe der DeReWo-Listen ohne die dazugehörige Dokumentation ist nicht erlaubt.
- Die kommerzielle Nutzung von DeReWo-Listen ist nicht erlaubt.
Bei Fragen oder Anregungen senden Sie bitte eine Email an derewo@ids-mannheim.de.
Kooperationen
- Tokyo University of Foreign Studies; Global COE Program Corpus-based Linguistics and Language Education (CbLLE)
- Wechselwirkungen zwischen linguistischen und bioinformatischen Verfahren, Methoden und Algorithmen: Modellierung und Abbildung von Varianz in Sprache und Genomen. Verbundprojekt im Rahmen eines BMBF-Förderschwerpunktes.
