Warum es die deutsche Wikipedia jetzt zum Download gibt

Berlin. Wie groß ist das deutsche Wikipedia-Internetlexikon? Wie lange dauert der Download? Ein Literaturwissenschaftler weiß die Antworten.

Es soll ja Leute geben, die sich Texte lieber herunterladen und ausdrucken, als sie am Bildschrim zu lesen. Der Literaturwissenschaftler Arne Janning macht dies für Wikipedia theoretisch möglich. Er hat den Text der deutschen Wikipedia-Version in eine einzelne Textdatei gepackt, die 7,04 Gigabyte groß ist. Der Download der auf 3 GB komprimierten Datei mit einer Downloadgeschwindigkeit von 35.675 kbit/s dauerte im Selbstversuch rund 15 Minuten. Doch warum stellt der ehemalige Microsoft-Programmierer diese gigantische Datei wirklich auf einem Google-Drive-Account bereit? Ist das tatsächlich ein Angebot für altmodische Wissbegierige, die das Lexikon gerne auf Papier hätten?

In Wahrheit ist die Download-Version von Wikipedia für Maschinen und Textanalysten gedacht. Aus der riesigen Text-Datei sollen vor allem (Recht-)Schreibprogramme auf Computern und mobilen Geräten lernen. Arne Janning, der an der Humboldt-Universität in Berlin arbeitet, forscht dabei zu einem sogenannten Word-2-Vector-Projekt. Dabei geht es darum, aus Wortpaaren ein drittes Wort zu kreieren oder in einen Zusammenhang zu stellen. Die Worte stehen dabei in einer Dreiecksbeziehung, wie Janning gegenüber unserer Redaktion erläutert: „Man kann zum Beispiel die Wortvektoren von ,Frau’ und ,Kind’ addieren und landet beim Wortvektor für ,Mutter’“.

Aber auch umgekehrt funktionieren diese Vektoren. „Man kann die ,USA’ von ,Obama’ subtrahieren und ,Deutschland’ hinzufügen und erhält ,Merkel’ als Ergebnis“, sagt Janning. Klingt theoretisch, hat aber einen praktischen Nutzen. Denn dieses Prinzip hilft beispielsweise der Texterkennung auf dem Smartphone. Wer eine SMS eintippt, dem werden nach dieser Logik Vorschläge für weitere Worte in einem Satz vorgeschlagen.

Leserfreundlich ist die Wikipedia-Datei nicht

Um aber sinnvolle Vorschläge zu liefern, muss die Maschine lernen. Und da Maschinen beim Lesen von 1,9 Millionen Lexikon-Artikeln nicht müde werden, können Entwickler und Forscher sie auf diese Weise füttern. Und weil der Computer auch keinen Wert auf anschauliche Überschriften oder schöne Bilder liefert, hat Arne Janning diese Elemente erst gar nicht in seine erstellte Datei eingefügt. Dennoch scheitern herkömmliche Office-Programme bereits beim Öffnen der großen Datei. Während die Datei für die Weitereinwicklung der Texterkennung hilfreich ist, erhält der normale Wikipedia-Nutzer durch sie keinen Mehrwert – zumal sich die Online-Version von Wikipedia ständig aktualisiert.

Wikipedia selbst hat im übrigen bis zum Jahr 2007/2008 eine Download-Version der eigenen Datenbank angeboten. Die Version konnte auf DVD gebrannt und offline gelesen werden. Offensichlich wurde die Datenbank aber mit der Zeit zu groß. Einige externe Entwickler boten Wikipedia auch danach zum Download an. Diese Versionen waren aber zur Einbettung in fremde Websites gedacht und nicht als einzelne Text-Dateien.

Wikipedia bietet viel Text in Alltagsdeutsch

Für Maschinen scheinen solche Textdateien, bei denen die Masse zählt, jedoch attraktiv: „Je mehr Text, desto besser. Und die Wikipedia bot sich da natürlich an“, sagt Janning. Aber auch aus einem zweiten Grund bietet sich Wikipedia als Lernhilfe an. Wie beim Büffeln einer Fremdsprache ist es angenehmer, mit sinnvollen ganzen Sätzen zu trainieren, als sich einzelne Wörter und ihre Bedeutung anzusehen. Auch Maschinen wollen offensichtlich nicht mit einer Einkaufsliste oder dem Telefonbuch eine „Fremdsprache“ erlernen. Wikipedia bietet dabei eine der größten Sammlungen deutscher Texte in digitaler Form an.

Computern soll so beigebracht werden, nicht nur Übersetzungen, sondern auch Zusammenhänge zu erkennen. Die Bauhaus-Universität Weimar hat etwa eine Suchmaschine erstellt, mit der Nutzer Redewendungen, Präpositionen und Ergänzungen zu einzelnen Wörtern suchen können. Das Programm „Netspeak“ ergänzt zu den Worten „auf...von“ zum Beispiel die Worte „der Basis“ und es ergibt sich „auf der Basis von“. Das Programm wurde mit zwei Milliarden Sätzen gefüttert, die meisten davon auf Englisch. „Netspeak“ funktioniert deshalb auch am genauesten bei englischen Redewendungen.

Auch mit Wikipedia hat die Hochschule in Weimar gearbeitet. Mit dem Projekt „Picapica“ bieten die Forscher eine Möglichkeit an, um Texte auf Plagiate oder ähnliche Passagen zu untersuchen. Die hinter „Picapica“ stehende Datenbank greift unter anderem auf die Texte des Online-Lexikons zurück. Sind Textteile aus den Artikeln übernommen, erkennt dies die Software nach Angabe der Forscher – auch wenn es keine wörtlichen Zitate sind.

Google, Apple und Facebook setzen auf lernende Maschinen

Die Beschäftigung mit lernenden Computerprogrammen ist aktueller denn je, weil Unternehmen wie Apple und Google auf Sprachassistenzen bei ihren Produkten setzen. Smartphones und Haushaltsgeräte sollen nicht nur einfache Befehle erkennen, sondern auch komplizierte Anfragen verarbeiten können. Dazu müssen Programme riesige Textmengen kennen.

Für das soziale Netzwerk Facebook ist die automatische Textanalyse ebenfalls interessant. So will Facebook seinen Nutzern möglichst wertvolle Inhalte anzeigen. Das Netzwerk vergleicht zum Beispiel Zeitungsartikel zu einem Thema und bietet dem Nutzer im besten Fall den ausführlichsten und exklusivsten Artikel an. Das so genannte Clickbaiting, bei dem Leser mit reißerischen Überschriften in einen Artikel gelockt werden, soll dabei ausgeschlossen werden. Auch Google ist an der Vermeidung von Clickbaiting interessiert und unterstützt deshalb seit Februar ein Forschungsprojekt der Universität Weimar zu dem Thema. Die Forscher ermitteln dabei, welche Elemente ein Clicktbaiting-Texte haben und wie auch Computer diese Elemente erkennen können.