Ist dieser Text merkwürdig? Schuld ist die Software!

BLOG: Heidelberg Laureate Forum

Laureates of mathematics and computer science meet the next generation
Heidelberg Laureate Forum

Ist dieser Text etwas merkwürdig? Nicht wie man es von einem Muttersprachler erwarten würde, aber irgendwie – aus?

Wir hörten heute auf der HLF zwei Vorträge über Deep Learning. Mein Interesse an diesem Thema ist mehr als nur akademisch. Es ist ganz konkret und spezifisch – vor allem, wenn es nicht um die Anwendung von Deep Learning auf Bilder geht, sondern um Übersetzungen aus einer Sprache in eine andere.

John Hopcroft spricht über Deep Learning im 5. HLF. © Heidelberg Laureate Forum Foundation / Kreutzer – 2017

Tatsächlich gebe ich diese Sätze in englischer Sprache in ein Fenster auf der Website http://www.deepl.com ein – und in einem anderen Fenster wird der Versuch einer deutschen Übersetzung angezeigt. Solange mein Satz unvollendet ist, ändert sich die Übersetzung, da die Software versucht, den Kontext zu berücksichtigen.

In diesem Fall wurde, wie in den Fällen, die während der Vorträge vorgestellt wurden, keine explizite Unterweisung vorgenommen. Niemand versuchte der Software von den Regeln der englischen Sprache, der deutschen Sprache und den Korrespondenzen zwischen ihnen zu erzählen. Stattdessen erhielt die Software eine riesige Sammlung von Mustertexten und deren Übersetzungen. Dann blieb es (vermutlich) sich selbst überlassen, und die richtigen Verbindungen herzustellen.

Während die Ergebnisse in einigen Fällen an einen zebrastreifengestreiften Vladimir Putin erinnern (um ein Beispiel aus einem der heutigen Vorträge zu zitieren), ist die Gesamtqualität beeindruckend hoch. Definitiv viel, viel besser als noch vor wenigen Jahren (durch persönliche Erfahrung).

Ein Zebrastreifen-Wladimir Putin war ein Misserfolgsfall aus dem heutigen Deep Learning Vortrag von Alexei Efros. Die Software sollte das Pferd nur in ein Zebra verwandeln.

Und das ist ein wichtiger Aspekt des Heidelberger Preisträgerforums. Wir sprechen vielleicht in einigen Fällen über einige der abstrakteren Konzepte, die man sich vorstellen kann. Aber vieles, was wir hören, hat sehr konkrete Anwendungen – und kann im Moment online genutzt und getestet werden.

Avatar photo

Markus Pössel hatte bereits während des Physikstudiums an der Universität Hamburg gemerkt: Die Herausforderung, physikalische Themen so aufzuarbeiten und darzustellen, dass sie auch für Nichtphysiker verständlich werden, war für ihn mindestens ebenso interessant wie die eigentliche Forschungsarbeit. Nach seiner Promotion am Max-Planck-Institut für Gravitationsphysik (Albert-Einstein-Institut) in Potsdam blieb er dem Institut als "Outreach scientist" erhalten, war während des Einsteinjahres 2005 an verschiedenen Ausstellungsprojekten beteiligt und schuf das Webportal Einstein Online. Ende 2007 wechselte er für ein Jahr zum World Science Festival in New York. Seit Anfang 2009 ist er wissenschaftlicher Mitarbeiter am Max-Planck-Institut für Astronomie in Heidelberg, wo er das Haus der Astronomie leitet, ein Zentrum für astronomische Öffentlichkeits- und Bildungsarbeit, seit 2010 zudem Leiter der Öffentlichkeitsarbeit am Max-Planck-Institut für Astronomie und seit 2019 Direktor des am Haus der Astronomie ansässigen Office of Astronomy for Education der Internationalen Astronomischen Union. Jenseits seines "Day jobs" ist Pössel als Wissenschaftsautor sowie wissenschaftsjournalistisch unterwegs: hier auf den SciLogs, als Autor/Koautor mehrerer Bücher und vereinzelter Zeitungsartikel (zuletzt FAZ, Tagesspiegel) sowie mit Beiträgen für die Zeitschrift Sterne und Weltraum.

6 comments

  1. Klasse. Ich habe mal den Leonard-Cohen-Song “Hallelujah” eingegeben – es passieren zwar Fehler, aber das Ergebnis ist wesentlich besser als beim Google-Übersetzer.

    Beispiel:
    Well your faith was strong but you needed proof
    You saw her bathing on the roof
    Her beauty and the moonlight overthrew you

    Deepl
    Nun, dein Glaube war stark, aber du brauchst Beweise
    Du hast sie auf dem Dach baden sehen,
    Ihre Schönheit und das Mondlicht haben dich überwältigt

    Google
    Nun war dein Glaube stark, aber du brauchst Beweis
    Du hast gesehen, wie sie auf dem Dach baden
    Ihre Schönheit und das Mondlicht stürzten dich

    Deepl scheitert dort, wo das Ergebnis zu speziell ist:

    Well it goes like this the fourth, the fifth
    The minor fall and the major lift

    Nun, so läuft es nun mal so, die vierte, die fünfte
    Der kleine Sturz und der große Auftrieb

    und das ist völlig daneben, da es sich um musikalische Begriffe handelt, was das System ohne weiteren Kontext nicht erkennt.

    Trotzdem: Es sieht sehr, sehr gut aus.

    • Ja, DeeL ist fast immer besser als google translate, aber nicht immer und nicht überall (nicht auf allen Gebieten) wie folgendes Beispiel zeigt:
      Original: Elon Musk anounces an improved mars rocket. Musk will reveal it on Friday.
      DeepL: Elon Musk kündigt eine verbesserte Mars-Rakete an. Moschus wird es am Freitag enthüllen.
      Google Translate: Elon Musk spricht eine verbesserte Mars Rocket an. Musk wird es am Freitag zeigen.

      Warum ist DeepL relativ gut, obwohl doch google translate und DeepL heute ähnliche Übersetzungsalgorithmen einsetzen, nämlich mehrschichtige neuronale Netze (artificial neural networks)? Einerseits, weil DeepL neuere Techniken wie einen Aufmerksamkeitsmechanismus benutzt, andererseits wegen der grossen Datenbasis auf der DeepL aufsetzt, nämlich allen verifizierten Eingaben in die Linguee-Datenbank

      • Ergänzung: DeepL ist auch besser und schneller als die entsprechenden Produkte von Google (google translate) und Microsoft (Bing), weil es auf ein Convolutional Neuronal Network setzt anstatt ein Recurrent Neuronal Net wie es normalerweise für sequentielle Probleme (wie eine Übersetzung, wo Worte einander folgen) verwendet wird. Convolutional neuronal Nets (CNNs) werden typischerweise für die Bildverarbeitung verwendet, denn sie nehmen als Eingabe eine Matrix (ein Bild), deren Elemente sie parallel verarbeiten während ein Recurrent Neuronal Net einen Satz sequentiell Wort für Wort verarbeitet und bei dieser Verarbeitung auf das zurückgreifen kann was es vorher gelesen hat. Neuerdings stellt sich aber heraus, dass geeignet konfigurierte CNNs auch für Sprachübersetzungen geeignet sind und zudem den Vorteil der parallelen Verarbeitbarkeit haben, können doch durch ein CNN alle Wörter eines Satzes parallel verarbeitet werden. CNN’s können dabei durchaus komplexe Satzanalysen vornehmen, sind sie doch hierarchisch aufgebaut, so dass höhere Schichten Satzteile zueinander in Beziehung setzen können.
        Zudem ist DeepL besser als google translate und Bing translate, weil es auf eine enorme Datenbasis von verifizierten Übersetzungen zurückgreifen kann. Zitat DeepL schools other online translators with clever machine learning (übersetzt von DeepL):

        Eine riesige Datenbank mit über einer Milliarde Übersetzungen und Abfragen (aus Linguee) sowie eine Methode zur Erstellung von Übersetzungen durch die Suche nach ähnlichen Snippets im Web bilden eine starke Basis für die Ausbildung des neuen Modells. Sie stellten auch zusammen, was sie behaupten, ist der 23. leistungsfähigste Supercomputer der Welt, bequem gelegen in Island.

  2. Is AI Riding a One-Trick Pony? geht ausführlich auf die verführerischen Resultate von Deep Learning ein und stellt fest, dass vieles am Verhalten, am Output von solchen Programmen, die Objekte in Bildern oder Beziehungen zwischen Worten erkennen, nur intelligent erscheint, aber nicht wirklich intelligent ist:

    Neuronale Netze sind nur gedankenlose unscharfe Mustererkenner, und so nützlich, wie unscharfe Mustererkenner sein können – darum die Eile, sie in fast jede Art von Software zu integrieren – stellen sie bestenfalls eine begrenzte Art von Intelligenz dar, eine, die leicht getäuscht werden kann. Ein tiefes neuronales Netz, das Bilder erkennt, kann beim Ändern eines einzelnen Pixels oder beim Hinzufügen von visuellen Geräuschen, die für den Menschen nicht wahrnehmbar sind, völlig blockiert werden. In der Tat, fast so oft, wie wir neue Wege finden, um tiefes Lernen anzuwenden, stoßen wir an seine Grenzen. Selbstfahrende Autos können beim Fahren unter unbekannten Bedingungen total versagen und Maschinen haben Mühe, Sätze zu analysieren, die ein vernünftiges Verständnis davon erfordern, wie die Welt funktioniert.

    Nun, könnte man sagen, auch vieles von dem was Menschen machen und leisten ist womöglich nur scheinbar intelligent. Immer intelligent zu sein, wäre wohl auch zu anstrengend. Das meiste, was wir machen läuft automatisch und womöglich auf einer ähnlichen Ebene wie das Mustererkennen durch Deep Learning. Doch genau das, was darüber – also über Mustererkennung und das Ahnen von Zusammenhängen – hinausgeht, macht uns zu Tieren, die allen anderen Tieren weit überlegen sind. Es ist das Denken in Konzepten, die Fähigkeit zum Sehen von komplexen Zusammenhängen weit über unmittelbare Korrelationen hinaus. Deep Learning allein wird uns nicht zu Computern führen, die das können. Zudem: alle Konzepte, die Deep Learning ausmachen waren schon in den 1980er Jahren bekannt. Aber erst seit den 2010er Jahren zeigen sich echte Erfolge dieses Ansatzes. Mit anderen Worten: selbst wenn wir heute schon wüssten wie man Computern höhere Intelligenz beibringt, kann es noch lange gehen, bis es in der Praxis funktioniert.

    • Der Prozess des tiefen maschinellen Lernens besteht aus zwei Hauptphasen: Lernen und Inferenzgenerierung. Die Lernphase ist als eine Methode zur Kennzeichnung großer Datenmengen und zur Identifizierung ihrer jeweiligen Merkmale zu sehen. Das System vergleicht diese Merkmale und merkt sie sich, um beim nächsten Mal, wenn es auf ähnliche Daten trifft, die richtigen Schlüsse zu ziehen.

      Der Deep-Learning-Prozess umfasst die folgenden Schritte:

      Dem ANN wird ein Satz von binären Ja/Nein-Fragen gestellt.
      Extraktion von numerischen Werten aus Datenblöcken.
      Klassifizierung der Daten nach den erhaltenen Antworten.
      Datenbeschriftung.
      In der Phase der Inferenzgenerierung zieht das System bestimmte Schlussfolgerungen und beschriftet dann neue, noch nicht untersuchte Daten mit seinem Vorwissen.

  3. Eine Verbesserung der Übersetzungsqualität verschlechtert natürlich den Spaß, der dem Leser dann entgeht. Da sollten wir schon genau abwägen.

Leave a Reply


E-Mail-Benachrichtigung bei weiteren Kommentaren.
-- Auch möglich: Abo ohne Kommentar. +