Ist dieser Text merkwürdig? Schuld ist die Software!
BLOG: Heidelberg Laureate Forum
Ist dieser Text etwas merkwürdig? Nicht wie man es von einem Muttersprachler erwarten würde, aber irgendwie – aus?
Wir hörten heute auf der HLF zwei Vorträge über Deep Learning. Mein Interesse an diesem Thema ist mehr als nur akademisch. Es ist ganz konkret und spezifisch – vor allem, wenn es nicht um die Anwendung von Deep Learning auf Bilder geht, sondern um Übersetzungen aus einer Sprache in eine andere.
Tatsächlich gebe ich diese Sätze in englischer Sprache in ein Fenster auf der Website http://www.deepl.com ein – und in einem anderen Fenster wird der Versuch einer deutschen Übersetzung angezeigt. Solange mein Satz unvollendet ist, ändert sich die Übersetzung, da die Software versucht, den Kontext zu berücksichtigen.
In diesem Fall wurde, wie in den Fällen, die während der Vorträge vorgestellt wurden, keine explizite Unterweisung vorgenommen. Niemand versuchte der Software von den Regeln der englischen Sprache, der deutschen Sprache und den Korrespondenzen zwischen ihnen zu erzählen. Stattdessen erhielt die Software eine riesige Sammlung von Mustertexten und deren Übersetzungen. Dann blieb es (vermutlich) sich selbst überlassen, und die richtigen Verbindungen herzustellen.
Während die Ergebnisse in einigen Fällen an einen zebrastreifengestreiften Vladimir Putin erinnern (um ein Beispiel aus einem der heutigen Vorträge zu zitieren), ist die Gesamtqualität beeindruckend hoch. Definitiv viel, viel besser als noch vor wenigen Jahren (durch persönliche Erfahrung).
Und das ist ein wichtiger Aspekt des Heidelberger Preisträgerforums. Wir sprechen vielleicht in einigen Fällen über einige der abstrakteren Konzepte, die man sich vorstellen kann. Aber vieles, was wir hören, hat sehr konkrete Anwendungen – und kann im Moment online genutzt und getestet werden.
Klasse. Ich habe mal den Leonard-Cohen-Song “Hallelujah” eingegeben – es passieren zwar Fehler, aber das Ergebnis ist wesentlich besser als beim Google-Übersetzer.
Beispiel:
Well your faith was strong but you needed proof
You saw her bathing on the roof
Her beauty and the moonlight overthrew you
Deepl
Nun, dein Glaube war stark, aber du brauchst Beweise
Du hast sie auf dem Dach baden sehen,
Ihre Schönheit und das Mondlicht haben dich überwältigt
Google
Nun war dein Glaube stark, aber du brauchst Beweis
Du hast gesehen, wie sie auf dem Dach baden
Ihre Schönheit und das Mondlicht stürzten dich
Deepl scheitert dort, wo das Ergebnis zu speziell ist:
Well it goes like this the fourth, the fifth
The minor fall and the major lift
Nun, so läuft es nun mal so, die vierte, die fünfte
Der kleine Sturz und der große Auftrieb
und das ist völlig daneben, da es sich um musikalische Begriffe handelt, was das System ohne weiteren Kontext nicht erkennt.
Trotzdem: Es sieht sehr, sehr gut aus.
Ja, DeeL ist fast immer besser als google translate, aber nicht immer und nicht überall (nicht auf allen Gebieten) wie folgendes Beispiel zeigt:
Original: Elon Musk anounces an improved mars rocket. Musk will reveal it on Friday.
DeepL: Elon Musk kündigt eine verbesserte Mars-Rakete an. Moschus wird es am Freitag enthüllen.
Google Translate: Elon Musk spricht eine verbesserte Mars Rocket an. Musk wird es am Freitag zeigen.
Warum ist DeepL relativ gut, obwohl doch google translate und DeepL heute ähnliche Übersetzungsalgorithmen einsetzen, nämlich mehrschichtige neuronale Netze (artificial neural networks)? Einerseits, weil DeepL neuere Techniken wie einen Aufmerksamkeitsmechanismus benutzt, andererseits wegen der grossen Datenbasis auf der DeepL aufsetzt, nämlich allen verifizierten Eingaben in die Linguee-Datenbank
Ergänzung: DeepL ist auch besser und schneller als die entsprechenden Produkte von Google (google translate) und Microsoft (Bing), weil es auf ein Convolutional Neuronal Network setzt anstatt ein Recurrent Neuronal Net wie es normalerweise für sequentielle Probleme (wie eine Übersetzung, wo Worte einander folgen) verwendet wird. Convolutional neuronal Nets (CNNs) werden typischerweise für die Bildverarbeitung verwendet, denn sie nehmen als Eingabe eine Matrix (ein Bild), deren Elemente sie parallel verarbeiten während ein Recurrent Neuronal Net einen Satz sequentiell Wort für Wort verarbeitet und bei dieser Verarbeitung auf das zurückgreifen kann was es vorher gelesen hat. Neuerdings stellt sich aber heraus, dass geeignet konfigurierte CNNs auch für Sprachübersetzungen geeignet sind und zudem den Vorteil der parallelen Verarbeitbarkeit haben, können doch durch ein CNN alle Wörter eines Satzes parallel verarbeitet werden. CNN’s können dabei durchaus komplexe Satzanalysen vornehmen, sind sie doch hierarchisch aufgebaut, so dass höhere Schichten Satzteile zueinander in Beziehung setzen können.
Zudem ist DeepL besser als google translate und Bing translate, weil es auf eine enorme Datenbasis von verifizierten Übersetzungen zurückgreifen kann. Zitat DeepL schools other online translators with clever machine learning (übersetzt von DeepL):
Is AI Riding a One-Trick Pony? geht ausführlich auf die verführerischen Resultate von Deep Learning ein und stellt fest, dass vieles am Verhalten, am Output von solchen Programmen, die Objekte in Bildern oder Beziehungen zwischen Worten erkennen, nur intelligent erscheint, aber nicht wirklich intelligent ist:
Nun, könnte man sagen, auch vieles von dem was Menschen machen und leisten ist womöglich nur scheinbar intelligent. Immer intelligent zu sein, wäre wohl auch zu anstrengend. Das meiste, was wir machen läuft automatisch und womöglich auf einer ähnlichen Ebene wie das Mustererkennen durch Deep Learning. Doch genau das, was darüber – also über Mustererkennung und das Ahnen von Zusammenhängen – hinausgeht, macht uns zu Tieren, die allen anderen Tieren weit überlegen sind. Es ist das Denken in Konzepten, die Fähigkeit zum Sehen von komplexen Zusammenhängen weit über unmittelbare Korrelationen hinaus. Deep Learning allein wird uns nicht zu Computern führen, die das können. Zudem: alle Konzepte, die Deep Learning ausmachen waren schon in den 1980er Jahren bekannt. Aber erst seit den 2010er Jahren zeigen sich echte Erfolge dieses Ansatzes. Mit anderen Worten: selbst wenn wir heute schon wüssten wie man Computern höhere Intelligenz beibringt, kann es noch lange gehen, bis es in der Praxis funktioniert.
Der Prozess des tiefen maschinellen Lernens besteht aus zwei Hauptphasen: Lernen und Inferenzgenerierung. Die Lernphase ist als eine Methode zur Kennzeichnung großer Datenmengen und zur Identifizierung ihrer jeweiligen Merkmale zu sehen. Das System vergleicht diese Merkmale und merkt sie sich, um beim nächsten Mal, wenn es auf ähnliche Daten trifft, die richtigen Schlüsse zu ziehen.
Der Deep-Learning-Prozess umfasst die folgenden Schritte:
Dem ANN wird ein Satz von binären Ja/Nein-Fragen gestellt.
Extraktion von numerischen Werten aus Datenblöcken.
Klassifizierung der Daten nach den erhaltenen Antworten.
Datenbeschriftung.
In der Phase der Inferenzgenerierung zieht das System bestimmte Schlussfolgerungen und beschriftet dann neue, noch nicht untersuchte Daten mit seinem Vorwissen.
Eine Verbesserung der Übersetzungsqualität verschlechtert natürlich den Spaß, der dem Leser dann entgeht. Da sollten wir schon genau abwägen.