DeReWo – Korpusbasierte Grund-/Wortformenlisten
In diesem Teilprojekt entwickeln wir Verfahren, mit deren Hilfe man auf der Grundlage beliebiger virtueller Korpora häufigkeitsbasierte Grund- und Wortformenranglisten erstellen kann. Durch die Anwendung dieser Verfahren auf das Deutsche Referenzkorpus DeReKo generieren wir verschiedenartige Grund- und Wortformenlisten des deutschen Sprachgebrauchs, z.B. die Lemmakandidatenliste mit 350.000 Einträgen für elexiko – das Online-Wörterbuch zur deutschen Gegenwartssprache.
Neben dem bereits seit 2007 bestehenden Angebot verschiedener korpusbasierter Wort- und Grundformenlisten erweitert der Arbeitsschwerpunkt sein Spektrum um
Korpusbasierte Grund- und Wortformenlisten
Aktuelle Arbeitsschwerpunkte
- Schreibweisenzuordnung
- paradigmatische Zuordnung
- zeitliche/regionale/texttypologische u.ä. Differenzierung
- Sonderfälle
- Qualitätssicherung
Aktuell zum Download verfügbare DeReWo-Grund-/Wortformenlisten
Das Institut für Deutsche Sprache erreichen immer wieder Anfragen nach "den häufigsten deutschen Wörtern" in der Annahme, dass derartige Wünsche klar genug formuliert und daher leicht zu beantworten sind. Mit der Veröffentlichung der DeReWo-Grund-/Wortformenlisten bemühen wir uns einen Kompromiss zu finden zwischen der faszinierenden Vielfalt unserer sprachlichen Realität und dem berechtigten Wunsch nach ihrer möglichst kompakten, wenn auch teilweise vereinfachenden Beschreibung.
Mithilfe allgemeiner Anmerkungen wollen wir Ihnen einen Überblick über die Problembereiche vermitteln, die bei der Erstellung und Nutzung derartiger Listen relevant sind und mit denen wir uns auseinandergesetzt haben. Die allgemeinen Anmerkungen sind in ihrer jeweiligen Fassung den Archiven beigelegt, die aktuelle Fassung können Sie auch hier direkt herunterladen.
Neben den allgemeinen Anmerkungen liegt jeder DeReWo-Liste zusätzlich eine ausführliche produktspezifische Dokumentation bei. Diese orientiert sich in ihrer Struktur an den allgemeinen Anmerkungen und soll Ihnen dabei helfen, die jeweils gewählte Sprachbetrachtungsperspektive und die daraus resultierenden Vereinfachungen und Folgen für die Interpretation und Handhabung der Liste nachzuvollziehen.
Bezeichung | Typ | Anzahl Einträge | veröffentlicht am |
|
---|---|---|---|---|
DeReKo-2014-II-MainArchive-STT.100000 | Wortform+Lemma+POS-Frequenzliste | 100.000 | 31. Dezember 2014 | |
derewo-v-ww-bll-320000g-2012-12-31-1.0 | Grundformliste | 326.946 | 31. Dezember 2012 | |
derewo-v-ww-bll-250000g-2011-12-31-0.1 | Grundformliste | 250.000 | 31. Dezember 2011 | |
derewo-v-40000g-2009-12-31-0.1 | Grundformliste | 40.000 | 31. Dezember 2009 | |
derewo-v-100000t-2009-04-30-0.1 | Wortformliste | 100.000 | 12. Mai 2009 | |
derewo-v-30000g-2007-12-31-0.1 | Grundformliste | 30.000 | 31. Dezember 2007 |
- Bei Problemen mit den Download-Links probieren Sie es bitte mit einem Rechtsklick mit der Maus und der Auswahl "Link speichern unter".
- Die Nutzung der DeReWo-Listen ohne Kenntnis der dazugehörigen Dokumentation ist wissenschaftlich unseriös.
- Die Referenzierung oder die Weitergabe der DeReWo-Listen ohne die dazugehörige Dokumentation ist nicht erlaubt.
- Die kommerzielle Nutzung von DeReWo-Listen ist nicht erlaubt.
Bei Fragen oder Anregungen senden Sie bitte eine Email an derewo(at)ids-mannheim.de.
Korpusbasierte Zeichenhäufigkeitslisten
DeReChar-v-uni-XXX-2018-02-28-1.0
Für verschiedene Anlässe ist von Interesse, wie sich die Häufigkeiten der verschiedenen Zeichen (insbesondere z.B. die Buchstaben des deutschen Alphabets) im Sprachgebrauch verteilen. Auch dazu haben wir in unserer Sammlung authentischer Texte, dem Deutschen Referenzkorpus DeReKo eine Reihe von Auswertungen durchgeführt, die in dieser Dokumentation zusammengefasst sind. Aus dieser Dokumentation erschließen sich die Hintergründe und Eigenschaften der verschiedenen, in der Studie entstandenen Listen "derechar-v-uni-XXX-2018-02-28-1.0", die hier in der Übersicht als Verweise (und auf den jeweiligen Seiten auch zum Download) angeboten werden.
uniXXX= | alle markanten Zeichen | nur deutsches Alphabet | |
---|---|---|---|
Berechnung relative Häufigkeit | Groß-/Kleinschreibung unterscheiden | Groß-/Kleinschreibung ignorieren | |
mit „andere Zeichen“ | ...uni-204-a-c... | ...uni-059-a-c... | ...uni-030-a-l... |
ohne „andere Zeichen“ | ...uni-059-b-c... | ...uni-030-b-l... |
Schreibschriftrelevante Buchstabenübergangshäufigkeiten
DeReChar-v-[bi|uni]-[KJL|DRC]-2021-10-31-1.0
Häufigkeitslisten für Bigramme (hier: im Sinne von Zweizeichenfolgen) mit einem vergleichbaren umfassenden Anspruch und Setting (wie bei den o.g. Zeichenhäufigkeitslisten) zu erstellen, gestaltet sich wesentlich komplexer und liefert nur wenig überschaubare und erkenntnisleitende Ergebnisse.
Aus einer kleinen Studie, die helfen soll, verschiedene Ansätze zur Vermittlung einer verbundenen Handschrift zu evaluieren, bieten wir hier Bigrammhäufigkeitsangaben (und die dazugehörigen Unigrammhäufigkeitsangaben) an. Die Nutzung dieser Angaben ist nur vor dem Hintergrund dieser Studie und mit der Kenntnis der u.g. Dokumentation sinnvoll.
Die Auswertung basiert auf einem eingeschränkten Token- und Bigrammbegriff und fokussiert mit dem DeReKo-Korpus der Kinder- und Jugendliteratur KJL auf einen Datenbestand, der sich der Zielgruppe der Fragestellung so gut wie möglich annähert. Ergänzend wurden die gleichen Auswertungen auf der aktuellen Fassung des für die o.g. DeReChar-Untersuchung zugrunde gelegten Datenbestandes (DRC) durchgeführt, deren Ergebnisse allerdings durch den eingeschränkten Token- und Bigrammbegriff nur für Vergleichszwecke zu den Bigrammdarstellungen sinnvoll erscheinen.
Die Ergebnisse werden für beide Datenbestände auf drei Arten dargestellt: (1) synoptisch fokussiert auf die wesentlichen Aussagen, insbesondere bezogen auf die Bigramme nach vorgegebenen Kategorien, (2) visuell unterstützt nur Bigrammanordnungen nach vorgegebenen Kategorien, sowie (3) in quantitativen Gesamtübersichten alle Bigramm- und Unigrammhäufigkeiten.
Zu den verschiedenen Unterteilungen der Darstellungen, den Häufigkeitsangaben, den Dateitypen und den weiteren (Verarbeitungs-)Möglichkeiten, lesen Sie bitte die ausführliche Dokumentation; beachten Sie bitte auch den darin enthaltenen Lizenzhinweis.
DeReChar-v-XXX-YYY-2021-10-31-1.0 download:
| YYY= XXX= | KJL | DRC |
---|---|---|---|
Synopse | bi | ||
Visualisierung | bi | ||
Gesamt | bi | ||
uni |
Zur Handhabung der csv-Dateien beachten Sie bitte die Hinweise in der Dokumentation. Wie Ihr Browser und Ihr Tabellenkalulationsprogramm das Anklicken des Links umsetzen, hängt von Ihren lokalen Einstellungen ab. Bei Problemen ggf. erst die Datei lokal speichern, die Anwendung zuerst starten und in die laufende Anwendung die Datei importieren (falls vorhanden, durch explizites Importieren, sonst über Öffnen) mit den in der Dokumentation angegebenen Optionen.
Korpusbasierte Sammlungen von typischen Wortverbindungen
Neben dem eher querschnittsartigen, umfassenden Angebot von typischen Wortverbindungen zum allgemeinen Sprachgebrauch über die Kookkurrenzdatenbank CCDB beschäftigen wir uns in diesem Arbeitsbereich mit Überlegungen dazu, wie Teilmengen von typischen Wortverbindungen zu bestimmten Sprachauschnitten oder aus bestimmten Perspektiven herausgearbeitet werden können. Eine erste Testversion ist zu der Lemmastrecke des Valenzwörterbuchs mit verschiedenen Auswahlmöglichkeiten von typischen Wortverbindungen unterschiedlicher Qualität konzipiert worden, die unter unter der Bezeichnung DeReKoll - Kollokationsschätze zum Deutschen Referenzkorpus veröffentlicht ist. Weitere Varianten sind in Vorbereitung.
Bei Fragen oder Anregungen senden Sie bitte eine Email an derewo(at)ids-mannheim.de.
Kooperationen
- Tokyo University of Foreign Studies; Global COE Program Corpus-based Linguistics and Language Education (CbLLE)
- Wechselwirkungen zwischen linguistischen und bioinformatischen Verfahren, Methoden und Algorithmen: Modellierung und Abbildung von Varianz in Sprache und Genomen. Verbundprojekt im Rahmen eines BMBF-Förderschwerpunktes.
Zurück zur Projektseite