08.01.2015

Und dann wird es Hunde und Katzen regnen

zurück

Und dann wird es Hunde und Katzen regnen

Googles Übersetzungsdienst und die Zukunft der Sprachen von Frédéric Kaplan und Dana Kianfar

Audio: Artikel vorlesen lassen

Wenn man vor einigen Wochen im Online-Übersetzungsservice von Google die italienische Entsprechung für den französischen Satz „Cette fille est jolie“ (Dieses Mädchen ist schön) gesucht hat, bekam man den Vorschlag: Questa ragazza è abbastanza (Dieses Mädchen ist ziemlich).

Wie kann eine der leistungsstärksten Übersetzungsmaschinen der Welt, deren Sprachkapital aus Milliarden von Sätzen besteht, ein solch grober Fehler unterlaufen? Die Antwort ist einfach: Die Übersetzung nimmt den Zwischenschritt über das Englische. „Jolie“ heißt auf Englisch „pretty“, und „pretty“ wird hier in der Bedeutung von „ziemlich“ mit „abbastanza“ übersetzt. Oder aus „Je pense que vous avez un président magnifique“ (Ich denke, Sie haben einen großartigen Präsidenten) wird Penso che tu abbia una bella sedia (Ich denke, Sie haben einen schönen Stuhl), weil „président“ nicht mit „Präsident“, sondern mit „chair“ übersetzt wurde, was sowohl Präsidium als auch Stuhl bedeuten kann.

Neben komplett sinnfreien oder unfreiwillig komischen Wendungen wie dieser kann auch das Gegenteil herauskommen: Hai fatto un compito terrificante (Du hast eine schrecklich schlechte Arbeit gemacht) übersetzt Google mit „Tu as fait un travail formidable“ (Du hast eine hervorragende Arbeit gemacht), weil das Englische „terrific“ je nach Kontext mit „fürchterlich“ oder „hervorragend“ übersetzt werden kann. Oder die idiomatische Wendung „Il pleut des cordes“ (Es regnet Bindfäden) verwandelt sich in ein pseudopoetisches Piove cani e gatti (Es regnet Hunde und Katzen) – nur ist diese wörtliche Übersetzung von „It rains cats and dogs“ nicht nur dem italienischen Muttersprachler fremd.

Um eine Übersetzungsmaschine zu entwickeln, benötigt man umfangreiche Korpora an identischen, in verschiedene Sprache übersetzten Texten. Der US-Konzern Google hat sein Übersetzungsprogramm auf Textpaaren aufgebaut, die fast immer Englisch als Referenzsprache benutzen. Dabei kommt es jedoch zu einer sprachlichen Verzerrung. Während sich das Französische und Italienische ähnlich sind, funktioniert Englisch deutlich anders; die Sprache ist ausgesprochen vieldeutig und reich an idiomatischen Wendungen. Ohne den Kontext zu kennen, muss eine automatisierte Übersetzung aus dem Englischen fehlschlagen.

Andererseits verraten uns die Fehler der Maschine auch einiges über die Spezifika der jeweiligen Sprachen. Früher oder später werden die Übersetzungsmaschinen durch die Entwicklung zweisprachiger Korpora, die ohne die Vermittlung des Englischen auskommen, und durch die Korrekturen, die die User selbst eingeben, zuverlässigere Ergebnisse liefern. Vielleicht werden die oben zitierten Fehler schon korrigiert sein, wenn wir diese Ausgabe von Le Monde diplomatique in Druck geben oder, wie es im Französischen heißt, „mettons sous presse“, was Google im Spanischen mit Vamos a presionar (Wir gehen drücken) übersetzt.

Um die Konsequenzen zu ermessen, die sich aus der Verwendung des Englischen als Brückensprache ergeben, muss man die automatische Übersetzung in den Kontext von Texten stellen, die auf Algorithmen basieren. Diese Computerprogramme bringen im Rahmen vollautomatischer Übersetzungen nicht nur sprachliche Neuerungen hervor. Sie werden zum Beispiel auch eingesetzt für automatisch generierte Presseberichte1 , für die syntaktische und semantische Korrektur von Wikipedia-Einträgen, für Werbespots oder die Verschlagwortung einer Website, um diese suchmaschinengerecht zu optimieren.

Wie lassen sich nun aber primäre, von Menschen ohne Hilfe von Algorithmen erzeugte Sprachressourcen (verschriftlichte Gespräche, Inhalte von digitalisierten Büchern et cetera) von sekundären Sprachressourcen unterscheiden, die aus algorithmischen Transformationen hervorgegangen sind? Durch die Autocomplete-Funktion, die mittlerweile beinahe alle Eingabeoberflächen besitzen – man tippt den Anfang eines Wortes und ein Programm vervollständigt die sprachliche Äußerung –, sind Algorithmen, wenn wir online schreiben, zu unseren ständigen Vermittlern geworden. In vielen Fällen verfassen wir unsere Texte nicht mehr Buchstabe für Buchstabe oder Wort für Wort, sondern begnügen uns damit, zwischen mehreren möglichen von Algorithmen vorgeschlagenen Ergänzungen auszuwählen. Diese Form des Schreibens verbindet Schnelligkeit mit Effizienz, gerade wenn man die reduzierte Tastatur eines Handys benutzt. In diesem neuen Rahmen besteht Schreiben nur noch darin, sich für einen Weg im Suchbaum der vorhersagbaren Ausdrücke zu entscheiden. In einigen Jahren wird es schwierig sein, eine Benutzeroberfläche zu finden, die diese Technologie nicht verwendet.

Wie alle sekundären Ressourcen sind auch die durch Übersetzungsmaschinen algorithmisch erzeugten Texte nicht unbedingt als solche gekennzeichnet. Sie präsentieren sich häufig als primäre, natürliche Spracherzeugnisse, die den Lesern als Modell dienen können. Ein Internetnutzer, dessen Muttersprache nicht Italienisch ist, hat keinen Grund, die Wendung Piove cani e gatti für falsch zu halten. Dies gilt erst recht für Algorithmen, die mit dem Ziel, künstlich neue Texte zu erzeugen, die Sprachstrukturen durchforsten. Ein Algorithmus, der eine primäre Quelle sucht, um seine Übersetzungsfähigkeiten zu optimieren, kann versehentlich einen durch einen anderen Algorithmus erstellten Text verwenden, der einen falschen Sinn enthält.

Die Verbreitung von durch die Arbeit von Algorithmen „verschmutzten“ Ressourcen im Netz bedroht ein technologisches Gebäude, dem es vor allem um Datenmengen und weniger um deren systematische Qualitätskontrolle geht. Zahllose Beispiele von seltsamen sprachlichen Wendungen kursieren im Internet. Im App Store, der Onlineboutique, in der Apple seine Software verkauft, sind etwa Kommentare zu einer App zu lesen, mit der man im Gehen Nachrichten tippen kann: „Intuitiv zu gebrauchen, schöne Ergebnisse und wieder gut gelaunt. Danke, der die gemacht hat! Das ist echt cool und empfehle.“ Oder: „Es hilft mir, den Text horizontal und vertikal einzugeben, SMS zu schicken, E-Mail zu schicken, Nachrichten auf Twitter und Facebook zu schicken … sehr lustig, ich danke Ihnen!“

Sätze, die niemals gesprochen oder geschrieben wurden

Solcherlei bizarre, algorithmisch erzeugte Wendungen können in einem zweiten Schritt Textvermittlungsdiensten als Modell dienen, die Vorschläge zur Vervollständigung des Textes machen, den Sie gerade tippen. Es ist also denkbar, dass irgendwann einem Italiener, der einen Satz mit Piove beginnt, der Vorschlag Piove cani e gatti angezeigt wird, der wahrscheinlich in der gesamten Geschichte der italienischen Sprache noch niemals gesprochen oder geschrieben wurde.

Die Referenzsprache Englisch wirkt damit potenziell an einem Kreolisierungsprozess mit: der Bildung einer neuen Sprache auf der Grundlage von Transformationen älterer Sprachen – ein Phänomen, das Linguisten wohlbekannt ist. Die gegenwärtigen, durch die Algorithmen verursachten Veränderungen haben eine Art Mischsprache, eine potenziell kurzlebige Kontaktsprache zwischen zwei Sprachsystemen entstehen lassen. Da eine junge Generation von Sprachbenutzern mit diesen gewandelten Ausdrucksformen selbstverständlich umgeht, könnte sie sich zu einer kohärenten und eigenständigen Sprache, einem Kreol, entwickeln. Dies könnte durch die Vermittlung der neuen Eingabeoberflächen beschleunigt werden, die als quasi vertraute Sprachprothesen die zukünftigen Ausdrucksformen prägen.

Der Sprachimperialismus des Englischen hat daher viel subtilere Auswirkungen, als es die auf den „Krieg der Sprachen“ gerichtete Kritik vermuten lässt. Dient ein einziges Idiom als Referenzsprache, führt das dazu, dass dessen Logik und Eigenheiten auf andere Sprachen abfärben und damit auch unmerklich auf die spezifische Art, in der in einer Sprache gedacht wird. Diese Entwicklung könnte auch an einer globalen Sprachveränderung mitwirken, bei der den Algorithmen eine Schlüsselrolle zukommt.

Wie Englisch für die europäischen Sprachen als Brückensprache fungiert, so übernehmen in anderen Sprachgebieten andere Sprachen diese Position. Damit etabliert sich ein weltweites Übersetzungsnetzwerk, das über mehrere Vermittlungsidiome funktioniert. Wer wird in fünf Jahren noch Texte ohne das Zutun von Algorithmen schreiben? Wie viel Zeit wird vergehen, bis die ersten durch Algorithmen entstandenen Sprachprodukte als natürliche Formen wahrgenommen werden? Diese hybriden Schrifterzeugnisse erfordern ein aufmerksames Studium sowie eine neue Linguistik, die selbst mit Algorithmen arbeitet, um deren Auswirkungen besser verstehen und kontrollieren zu können.

Fußnote: 1 Siehe Evgeny Morozov, „Von der Maschine geschrieben“, Le Monde diplomatique, September 2012. Aus dem Französischen von Uta Rüenauver Frédéric Kaplan ist Leiter und Dana Kianfar Doktorandin im Fachbereich „Digital Humanities“ an der École polytechnique fédéral von Lausanne.

Le Monde diplomatique vom 08.01.2015, von Frédéric Kaplan und Dana Kianfar