Wikipedia-Korpora
Wikipedia-Korpora 2017 (wpd17, wdd17, wud17, wrd17)
Erarbeitung: IDS
Zeitraum: Wikipedia-Dump vom 1. Juli 2017
Umfang und Inhalt:wpd17 (Artikel) |
wdd17 (Artikel- Diskussionen) |
wud17 (Nutzer- Diskussionen) |
wrd17 (Redundanz- Diskussionen) |
|
#Texte | 2065926 | 744857 | 603374 | 240 |
#Posts | -/- | 7107696 | 5895545 | 52393 |
#Tokens | 873182923 | 349075823 | 309390966 | 1775975 |
- Fußnoten: Fußnoten sind ab 2017 separiert und erscheinen nicht mehr im Fließtext
Download: DeReKo-Downloads
Wikipedia-Korpora 2015 (wpd15, wdd15, wud15)
Erarbeitung: IDS
Zeitraum: Wikipedia-Dump vom April 2015
Umfang und Inhalt:wpd15 (Artikel) |
wdd15 (Artikel- Diskussionen) |
wud15 (Nutzer- Diskussionen) |
|
#Texte | 1.802.682 | 591.460 | 539.053 |
#Posts | -/- | 6.200.701 | 5.523.769 |
#Tokens | 796.638.747 | 309.897.027 | 271.441.322 |
- Fußnoten: In den Wikipedia-Konvertierungen erscheint Fußnotentext im Fließtext an der Stelle, an der normalerweise das Fußnotenzeichen steht, dies geht auf die Wikitext-Quelle zurück. Zwar sind diese Einschübe in der mit I5-Markup versehen, dieses ist aber in COSMAS II-Ergebnisansichten nicht sichtbar. Dort erscheinen Fußnoteneinschübe mitten im Text, u.U. mitten im Satz. Dadurch kann es auch sein, dass die Satzsegmentierung an diesen Stellen nicht den Erwartungen entspricht. In zukünftigen Wikipedia-Konvertierungen werden die Fußnotentexte separiert.
Download: DeReKo-Downloads
Fremdsprachige Wikipedia-Korpora, 2015
Erarbeitung: IDS
Zeitraum: Wikipedia-Dumps vom August und September 2015
Umfang und Inhalt:Artikel #Tokens | Artikel-Diskussionen #Tokens | Nutzer-Diskussionen # Tokens | |
Englisch (wpe15, wde15, wue15) |
2.403.943.177 | 1.270.217.981 | 2.698.338.998 |
Französisch (wpf15, wdf15, wuf15) |
764.459.026 | 137.107.729 | 372.639.260 |
Ungarisch (wpu15, wdu15, wuu15) |
117.987.947 | 8.293.799 | 26.215.158 |
Norwegisch (wpn15, wdn15, wun15) |
99.014.144 | 5.314.362 | 32.481.331 |
Spanisch (wps15, wds15, wus15) |
578.882.431 | 54.907.258 | 276.034.367 |
Kroatisch (wpk15, wdk15, wuk15) |
46.641.724 | 2.480.966 | 18.731.167 |
Italienisch (wpi15, wdi15, wui15) |
463.022.806 | 49.825.036 | 125.573.567 |
Polnisch (wpp15, wdp15, wup15) |
298.207.197 | 16.558.557 | 64.126.136 |
- Die fremdsprachigen Wikipedia-Korpora sind naturgemäß nicht Teil des Deutschen Referenzkorpus DeReKo.
- Fußnoten: In den Wikipedia-Konvertierungen erscheint Fußnotentext im Fließtext an der Stelle, an der normalerweise das Fußnotenzeichen steht, dies geht auf die Wikitext-Quelle zurück. Zwar sind diese Einschübe in der Korpusrepräsentation mit I5-Markup versehen, dieses ist aber in COSMAS II-Ergebnisansichten nicht sichtbar. Dort erscheinen Fußnoteneinschübe mitten im Text, u.U. mitten im Satz. Dadurch kann es auch sein, dass die Satzsegmentierung an diesen Stellen nicht den Erwartungen entspricht. In zukünftigen Wikipedia-Konvertierungen werden die Fußnotentexte separiert.
- Tokenisierung: Die fremdsprachigen Wikipedia-Korpora wurden mit der gleichen Konvertierungspipeline aus den Wikipedia-Dumps konvertiert wie die deutschsprachigen. D.h. unter anderem, dass beim Import in COSMAS II eine Tokenisierung verwendet wurde, die eigentlich für das Deutsche entwickelt wurde. Insbesondere gilt bei dieser Tokenisierung der Apostroph (') nicht als Token-Separator. Das hat zur Folge, dass z.B. in der französischen und italienischen WP die mit Apostroph separierten proklitischen Artikel, Pronomina und andere Funktionswörter in COSMAS II zusammen mit ihrem Basiswort als ein Token repräsentiert sind. (Z.B im Frz. l'amour, c'est, n'est, m'ennnuie). D.h. wenn in COSMAS II nach der Wortform amour gesucht wird, werden klitisierte Formen wie l'amour nicht in der Treffermenge erscheinen. Als Abhilfe können Platzhalter-Operatoren verwendet werden (z.B. Suchform *amour) oder die klitisierten Formen im Suchausdruck explizit mit aufgeführt werden.
- Analog gilt ein Bindestrich grundsätzlich nicht als Token-Separator. In der französischen WP sind daher alle Formen mit phonetisch bedingtem -t- -Einschub als ein Token repräsentiert (a-t-il, a-t-on, va-t-on etc.).
- In ähnlicher Weise ist auch die Lemmatisierung von COSMAS II auf das Deutsche zugeschnitten. Daher ergibt es wenig Sinn, den Grundformenoperator '&' in Anfragen an die fremdsprachigen Wikipedia-Korpora zu verwenden.
Download: DeReKo-Downloads
Wikipedia-Korpora, 2013
Erarbeitung: IDS
Zeitraum: Wikipedia-Dump vom Juli 2013
Umfang und Inhalt:- Artikel (wpd13): 689.046.830 Tokens
- Artikel-Diskussionen (wdd13): 274.141.008 Tokens
Download: DeReKo-Downloads
Wikipedia-Korpora, 2011
Erarbeitung: IDS, Projekte EuroGr@mm und Korpusausbau
Zeitraum: Wikipedia-Dump von 2011
Umfang und Inhalt:- Artikel (wpd11): 560.786.178 Tokens
- Artikel-Diskussionen (wdd11): 234.556.967 Tokens
Download: DeReKo-Downloads
Wikipedia-Korpora, 2005
Erarbeitung: IDS
Zeitraum: Wikipedia-Dump von 2005
Umfang und Inhalt: Artikel (wpd): 50.053.144 Tokens
Download: DeReKo-Downloads
Literatur
- Noah Bubenhofer, Stefanie Haupt, Horst Schwinn (2011): A Comparable Corpus of the Wikipedia: From Wiki Syntax to POS Tagged XML. Hamburg Working Paper in Multilingualism, 96 B
- Eliza Margaretha, Harald Lüngen (2014): Building linguistic corpora from Wikipedia articles and discussions. In: Journal for Language Technologie and Computational Linguistics (JLCL) 2/2014