Künstliche Intelligenz und wie man eine Kartoffelsuppe mit Steinpilzen kocht

Viele Menschen denken bei Künstlicher Intelligenz (KI) und künstlichen neuronalen Netzen (KNN) an etwas Magisches: Die KI-Laien oft an schwarze Magie, die dem Menschen schaden würde. Aber auch manche KI-Experten scheuen in ihrer Begeisterung über KNN nicht das Wort „magisch“. Zum Glück nur im Sinne von weißer Magie – von etwas, das uns helfen kann, eine bessere Welt zu bekommen.

Was sind also unsere heutigen „Künstliche Intelligenz“-Programme, vor allem künstliche neuronale Netze, über die wir ständig in den Zeitungen lesen? Sind sie reine Technologie? Oder doch etwas mit „Magie“? Eine Geheimwissenschaft, die wir nicht erklären können und vor der wir Angst haben müssen? Lernen KNN ähnlich wie Menschen? Oder lernen sie nur dank Mathematik? Wo ist hier der große Unterschied? In welche Schublade können wir KNN stecken?

In diesem Beitrag möchte ich eine solche Schublade finden. Ich hoffe, eine humane Schublade. Damit aus ihr kein bösartiger Dschinn entweicht, wenn man sie aufmacht. Die Kartoffelsuppe mit Steinpilzen im Titel meines Beitrags ist dabei die Kirsche auf der Torte – um für solche Metaphern nicht ständig das berühmte Sahnehäubchen zu strapazieren. Wie das Suppenkochen mit künstlichen neuronalen Netzen zusammenhängt, erkläre ich hier selbstverständlich auch. Zuerst aber beleuchte ich etwas die Arten, wie wir Menschen und wie Computer lernen:

Das Lernen von Menschen und Computern

Seit man sich ernsthaft Gedanken über Computer und über KI macht, weiß man: Alles, was für den Menschen einfach ist, ist für die Maschine schwer: Zu sprechen, den gesunden Menschenverstand zu benutzen, also gedanklich ganz verschiedene Sachen zu verbinden, aber auch nur zu laufen. Die Maschine kann dagegen viel besser und schneller rechnen als wir: Mit Millionen von Daten, und sie kann sich diese Millionen Daten auch präzise merken.

Ich konnte meinen Söhnen Sachen auf zwei verschiedene Arten beibringen: Entweder als eine Folge von Anweisungen: „Du willst ein weichgekochtes Ei haben? Dann stelle Wasser in einem kleinen Topf auf den Ofen. Wenn es anfängt zu kochen, tue ein rohes Ei hinein – bitte, in der Schale – und koche es genau fünf Minuten lang so, dass das Wasser zwar blubbert, das Ei aber nicht aus dem Topf hüpft. Nach fünf Minuten steckst du das Ei ins kalte Wasser und – fertig!“

Fußball zu spielen aber, ist viel komplizierter als Eier zu kochen. Ich musste mit den Jungs Tausende Male kicken, damit sie das Spiel lernen konnten. Ich musste ihnen also viele Beispiele vom Fußball zeigen und sie selbst trainieren lassen. Ihnen nur die Regeln zu erklären und Anweisungen zu geben, wie sie ihre Füße bewegen sollten, brachte nichts. 

Computern konnten wir früher nur genaue Anweisungen geben, damit sie bestimmte Aufgaben lösten. Eine regelbasierte Computerwelt war das. Noch vor ein paar Jahren konnten die meisten Maschinen nichts dazu lernen. Ihr Programm voller präziser Anweisungen brachte immer das gleiche Ergebnis: Ein Industrieroboter konnte nur an einer bestimmten Stelle eine Schraube anbringen. Wenn das Schraubenloch nur ein paar Millimeter daneben lag, hat der Roboter die Schraube nicht eingeschraubt. Komplexe Aufgaben, wie Fußball zu spielen, kann man aber nicht in Anweisungen übersetzen. Nicht einmal Abertausende Anweisungen für die Bewegungen beim Fußball erfassen die gesamte Komplexität des Spiels.

Foto von Joseph Chan bei Unsplash

Also gab es hier zwei Probleme: Zuerst war der Mensch nicht in der Lage, etwas so Komplexes wie das Fußballspiel als eine Folge von Anweisungen aufzuschreiben – damit der Computer diese Anweisungen ausführen konnte. Außerdem führen regelbasierte Programme sklavisch ihre Anweisungen aus, sie lernen nichts dazu. Sie können nicht trainiert werden. Das müssen sie aber, wenn sie sich in einer komplexen Umgebung wie in einem Fußballspiel behaupten sollen. Bei einem Fußballspiel passiert ständig etwas Neues, was der Programmierer nicht vorhersehen konnte. Hier ist eine Maschine gefragt, die ihre antrainierten Fähigkeiten auf zwar ähnliche jedoch neue Situationen übertragen, das heißt, verallgemeinern kann. So wie der Mensch.

Solche Maschinen bzw. Programme haben wir jetzt: Künstliche neuronale Netze (KNN), auch tief lernende neuronale Netze genannt (deep learning neural networks): Im großen Gebiet der künstlichen Intelligenz ist tiefes Lernen (Deep Learning) eine Abteilung des Maschinenlernens (Machine Learning). Eine Maschine lernt, wenn sie mit zunehmender Erfahrung automatisch ihre Aufgabe immer besser erfüllt. Ohne dass ihr der Mensch dabei hilft. Wenn in diesem Artikel “künstliche Intelligenz” oder “Chatbot” oder “Maschine” steht, ist damit immer ein KNN oder ein Modell aus mehreren KNN gemeint.

Magische Technologie?

Magie musste schon immer als Erklärung herhalten, wenn man etwas nicht verstand: Ein Gott – ein magisches Wesen also – ist, frei nach Laplace, eine unbrauchbare Hypothese. Ein Gott ist ein Loch in der Aufklärung. So wie noch die alten Griechen beim Blitzschlag an einen Kampf der Götter dachten, kann es einem genauso unheimlich vorkommen, wenn der Chatbot Google Duplex beim Friseur anruft und einen Termin ausmacht. Ohne dass der Friseur (ein Mensch) merkt, mit einer Maschine gesprochen zu haben? Doch wenn eine Maschine wie ein Mensch einen Termin ausmacht, ist sie immer noch kein Terminator. 😊 So wie ein Blitzschlag kein Gott ist, sondern Physik, ist ein KNN Mathematik.

Foto: ANDI WHISKEY bei Unsplash.

Leider trägt der Begriff „Mathematik“ nicht allzu viel zur Beruhigung bei. Die Angst vor Mathematik ähnelt manchmal der Gottesfurcht. Was soll ein Mathemuffel mit der Aussage anfangen, „ein KNN ist Mathematik“? Was genau ist ein KNN? Ist ein Programm, das lernen und eine bestimmte kognitive Aufgabe wie ein Mensch lösen kann, kein denkendes Wesen? In welche andere Schublade sollen wir ein KNN stecken? Und wie kann man diese Schublade einem Nicht-KI-Experten beschreiben? Wie soll man zeigen, dass der mit dem Friseur palavernde Chatbot Duplex nicht plötzlich zu dem bösartigen Transformer Megatron mutieren kann?

Die Antwort ist: Der Chatbot weiß nicht, was er tut. Der Chatbot kann nur mit Hilfe von vielen Daten und komplexen Anweisungen in einem Programm lernen, einen bestimmten Aspekt menschlicher Intelligenz nachzuahmen, jedoch nur einen einzigen: Zum Beispiel in einem Friseurladen anzurufen und dort einen Termin auszumachen.

So wie ein Papagei von sich aus selbst zu sagen lernt, „Donald ist doof“, wenn wir den Satz nur oft genug vor dem Papagei widerholen. Hat der Papagei nicht auch etwas Intelligentes gemacht, wenn er gelernt hatte, einen solchen weisen Satz zu sagen? Warum fürchtet sich trotzdem niemand, dass der Papagei uns bald beherrscht. So wie man das von künstlicher Intelligenz befürchtet? Dabei ist das Gehirn eines Papageis eine viel klügere Maschine als jeder Computer mit einem heutigen „Künstliche Intelligenz“-Programm.

Selbstverständlich müssen wir keinen Papagei fürchten. Trotz seiner „menschlichen kognitiven Fähigkeit“ diesen Satz sagen zu lernen, hat der Papagei keine Ahnung davon, wer Donald ist. Nicht einmal, was das Wort „doof“ bedeutet, weiß der Papagei. So wie der Chatbot nicht weiß, was ein Friseurladen ist, obwohl er da gerade angerufen hat.

Ein kleiner Ausflug in die Welt der universellen Sprache

Wie schon gesagt, machen es manche Künstliche-Intelligenz-Forscher den KI-Laien auch nicht gerade leicht, wenn sie KNN als etwas Magisches bezeichnen.

Andererseits verstehe ich das Schwärmen über KI. Auch mich fluten magische Gefühle, wenn ich über künstliche neuronale Netze nachdenke. Zum Beispiel über die maschinelle Verarbeitung der natürlichen Sprache: Beim Turmbau von Babel soll Gott dem Menschen wegen seines Hochmuts seine universelle Sprache genommen haben. Seitdem spricht jeder Mensch sein nationales Kauderwelsch und muss Kriege anzetteln, weil ein anderer Mensch ihn nicht versteht.

Plötzlich kann aber der Übersetzer von Google (Googles Neural Machine Translation) zwischen “Koreanisch und Japanisch” (in beiden Richtungen) übersetzen, obwohl die neuronale Maschine nur an Übersetzungen zwischen “Englisch und Japanisch” (in beiden Richtungen) und “Englisch und Koreanisch” (in beiden Richtungen) trainiert wurde. Zero-Shot-Translation heißt das Wunderwerk. Wieso kommt die Maschine plötzlich auch mit dem Übersetzen zwischen Koreanisch und Japanisch zurecht? Ohne an solchen Übersetzungen gelernt zu haben? Magie?

Keine Magie: Während ihres Trainings an langen Übersetzungen zwischen diversen Sprachen fand die Maschine Muster und Merkmale, die für alle diese Sprachen gemeinsam sind: Eine einheitliche maschineninterne Repräsentation der Bedeutungen von Wörtern und Sätzen in vielen verschiedenen Sprachen. Deswegen kann die Maschine auch zwischen Sprachen übersetzen, an deren Übersetzungen sie nicht trainiert wurde.

Man kann es sich so vorstellen: „Bier“ heißt auf Englisch „beer“ und auf Tschechisch „pivo“. Eine Maschine versteht nicht, was Bier ist, sie kann aber mit Wahrscheinlichkeiten – also Zahlen – rechnen. Diese drücken aus, welche Wörter in der Nachbarschaft jedes bestimmten Wortes in einem langen Text stehen. Das heißt: Wie wahrscheinlich ist es, dass die Wörter „Bier“ und „Krug“ in einem langen Text näher am Wort „Glas“ liegen als die Wörter „Traktor“ und „Lastwagen“? „Traktor“ und „Lastwagen“ liegen wiederum näher am Wort „Diesel“.

Diese Wahrscheinlichkeiten zeigen also, „Bier“ und „Glas“ liegen in einem universellen Raum der Bedeutungen näher aneinander als „Bier“ und „Traktor“. Unabhängig davon, wie diese Wörter in ihrer jeweiligen Sprache heißen. Nur in der sozialistischen Tschechoslowakei lagen die Wörter „Bier“ und „Traktor“ im Bedeutungsraum eng beisammen, hockten doch die ganzen Traktoristen unserer Dorfkolchose schon mittags in der Kneipe.

Somit baut die Maschine einen Raum der Bedeutungen, in dem Wörter mit ähnlichen Bedeutungen näher aneinander liegen als Wörter mit unterschiedlichen Bedeutungen. Eine solche universelle Repräsentation von Bedeutungen in vielen Sprachen kann man aber gleich universelle Sprache nennen: Von Gott dem Menschen genommen, ihm aber von der Maschine zurückgegeben: Vorausgesetzt, der Mensch ist in der Lage, eine solche interne Sprachrepräsentation zu verstehen. Eine hübsche Idee, oder? Darüber, wie die Maschine dem Menschen das von Gott Genommene zurückgegeben hat, muss ich einen Blogbeitrag schreiben. Unbedingt!

Vogelsprache

Dabei fällt mir ein: Durch Märchen berauscht träumte ich als Kind davon, die Vogelsprache zu verstehen. Später als Naturwissenschaftler nüchtern geworden, musste ich einsehen, dass Vögel nicht sprechen – zumindest nicht so wie Menschen. Dann las ich aber im Spektrum der Wissenschaft, der winzige australische Rotstirn-Dornschnabel täuscht Krähen mit gefälschten Alarmrufen. Damit die Krähen seine Zöglinge nicht aus dem Nest picken. Diese gefälschten Alarmrufe warnen vor Habichten, vor denen sich auch eine Krähe in die Hose macht. Da aber der Rotstirn-Dornschnabel wohl bei den Krähen als Trickser bekannt ist, ahmen die kleinen Rotstirn-Dornschnabel Alarmrufe anderer Vögel nach.

Sicher haben Vögel noch viel mehr Wortschatz, nicht nur Alarmrufe. Wenn man ein KNN-Modell mit dem Singsang einer Vogelart trainiert und mit den dazugehörigen Videos, auf denen das Verhalten der Vögel bei diesem Singsang festgehalten wurde, könnte man wohl „die Sprache“ dieser Vogelart lernen. Eine Frage an biologische Fakultäten: Macht das schon jemand?

Lernende Maschinen

Egal wir gut aber ein KNN lernt – kein solches Programm kann plötzlich eine ganz andere Aufgabe zu lösen anfangen, als die Aufgabe, auf die es trainiert wurde. Ohne massive Eingriffe und viel Arbeit von Menschen geht das einfach nicht. Beim Transferlernen versucht man zwar einem für eine bestimmte Aufgabe trainierten KNN eine neue Aufgabe beizubringen. Das geht aber nur dann, wenn das KNN an seiner ersten Aufgabe allgemeine Merkmale lernte. Das ist jedoch meist nicht der Fall: Ein Netflix-Empfehlungssystem für Filme kann nicht mir nichts dir nichts Termine beim Friseur ausmachen: Dafür wurde nun mal der Chatbot Google Duplex trainiert.

Künstliche neuronale Netze wurden von der Art inspiriert, wie das Gehirn und seine Neuronen arbeiten. Jedoch nur grob: Zum Beispiel werden die hochkomplexen Gehirnzellen, die Neurone, in einem KNN auf Punkte reduziert:

 

Linkes Bild: Diagramm eines Neurons. Eine solche Nervenzelle ist über die Synapsen seiner Dendritte und seines Axons mit Tausenden anderen Neuronen verbunden. Das Neuron samt seiner Fortsätze zeichnet sich durch eine dynamische und komplexe Biochemie und Aktivität aus. Es ist eine autonome Fabrik für alle möglichen Stoffe, während die von ihm inspirierten acht Neuronen im mehrschichtigen Perzeptron eines KNN (rechtes Bild) nur Punkte in einem Netz sind. Quelle linkes Bild: Wikimedia Commons. Autoren: LadyofHats (Englisches Original), NEUROtiker (Deutsche Übersetzung).

 

Naiv dachten wir trotzdem, ein KNN unterscheidee einen Hund von einer Katze anhand der gleichen prägnanten Merkmale des Tieres wie das menschliche Gehirn: An den Schnurrhaaren einer Katze und an ihren kleinen spitzen Ohren zum Beispiel.

Ist dem wirklich so? Ein KNN ist ein Netz aus vielen Schichten mit Neuronen. Bei einer Bilderkennung werden die Tonwerte der Pixel einer Katze in die Eingabeschicht eines konvolutionellen neuronalen Netzes gespeist (CNN – convolution neural network). Diese Pixel werden durch das Netz propagiert. Dabei setzt das Netz die Pixelwerte des Katzenbildes von Schicht zu Schicht zu immer komplexeren Merkmalen zusammen: Zuerst zu Strichen und Ecken, in einer folgenden tieferen Schicht zu Schnurharren und den spitzen Katzenohren, bis in der tiefsten Schicht die Katze als Katze erkannt werde.

Wir dachten: Der einzige große Unterschied zur menschlichen Objekterkennung sei: Die Maschine müsse Tausende Fotos von Katzen und Hunden gesehen haben, um auch unbekannte Katzen als Katzen und Hunde als Hunde zu erkennen. Das bewältige ein Mensch dagegen, wenn er nur drei Katzen und drei Hunde im Leben gesehen habe. Außerdem könne man ein KNN mit einer winzigen Änderung der Parameter auf einem Bild so verwirren, dass es plötzlich eine Katze mit der Schwiegermutter des KNN-Programmierers verwechsle. Obwohl jeder Mensch auf dem Foto immer noch eine sympathische Frau sieht. Noch dazu könne man KNN mit ungewöhnlichen Sachen durcheinanderbringen: So wie es in meinem vorletzten Blogbeitrag steht:

Wenn du einen Elefanten in ein Wohnzimmerfoto kopierst, würde jeder Mensch einen Elefanten in einem Wohnzimmer sehen. Ein KNN dagegen erkennt auf dem Foto plötzlich ganz falsche Sachen. Es muss also einen grundlegenden Unterschied geben, wie Menschen und Maschinen Muster erkennen.

Mittlerweile wissen wir: Ein KNN erkennt oft für einen Menschen unsichtbare Merkmale: An Tausenden Tumorscans trainiert, kann ein KNN auf ihm unbekannten Tumorbildern bestimmen, welche Tumore bösartig seien: An vielen so winzigen Merkmalen, dass der Mensch sie einfach nicht sehen und erfassen kann. Wie anders als wir erkennen KNN also Bilder und Muster?

Das haben vor kurzem Forscher an der Universität Tübingen herausgefunden: Konvolutionelle neuronale Netze (CNN – convolutional neural networks) erkennen Objekte an völlig anderen Merkmalen als Menschen. Menschen bestimmen Objekte anhand ihrer Gestalt, ihrer Form. CNN dagegen erkennen Objekte an ihren Texturen, der Beschaffenheit ihrer Oberfläche also. Wenn ein Mensch das Bild einer Katze sieht, die eine Elefantenhaut trägt, erkennt der Mensch immer eine Katze auf dem Bild. Ein CNN dagegen erkennt hier einen Elefanten. Darüber hinaus konnten die Forscher aus Tübingen zeigen, wie man Datensätze für das Training von CNN vorbereiten kann, damit ihre Erkennung mehr auf die Gestalt der Objekte ausgerichtet ist. Um keine Verwirrung zu stiften: Auch ein CNN ist ein KNN – ein Spezialfall davon.

Ich denke, hier geht es vor allem um die Datenmenge. Ein KNN macht sich ja keine Gedanken darüber, ob er Daten aus dem Umriss eines Objekts oder aus seiner Beschaffenheit heranzieht, um eine interne Repräsentation der Objektmerkmale zu bilden. Nur enthält ein Umriss viel weniger Daten als eine Oberfläche. Der Umfang eines Quadrats mit Seiten von 10 cm Länge misst nur 40 cm, seine Oberfläche jedoch 100 cm2. So liefert die Oberfläche eines Objekts nun mal viel mehr Pixel, also Daten, die zu Merkmalen zusammengesetzt werden, als sein Umriss. Das menschliche Gehirn musste dagegen lernen, auch im Dunkeln schnell ein Raubtier zu erkennen – dafür eigneten sich die Umrisse des Raubtiers viel besser als die Beschaffenheit seines Fells.

Lesen sich die vorherigen Überlegungen zu der Arbeit von KNN nicht schon erfreulich nach der Beschreibung einer Technologie? Statt nach einer Geheimwissenschaft voller Magie? Um eine endgültige „nüchterne“ Schublade für KNN zu finden, sollten wir uns noch ansehen, was in einem KNN passiert, wenn es lernt: Keine Angst! Das machen wir grob vereinfacht, also auch für Nicht-Mathematiker passend:

Ein solches Netz ist eine Ansammlung von zusammenverbundenen Punkten (Knoten, Neuronen) in einem Computerprogramm. Während des Trainings dieses Netzes in einem Computer werden die Verbindungen zwischen den Punkten mit Hilfe von Mathematik schrittweise gestärkt oder geschwächt, bis das Netz eine optimale Antwort auf seine Aufgabe liefert. Wie heißt ein solches Verfahren? Ja! Das ist ein Optimierungsverfahren! Wenn ich doch ein Programm durch etwas Mathematik schrittweise anpasse – also optimiere -, so dass es „optimal“ seine Aufgabe löst, wie soll ich das sonst bezeichnen? Von Magie keine Spur! Jetzt haben wir eine richtige „technische“ Schublade für KNN:

Hä?

„Ein künstliches neuronales Netz ist ein Optimierungsverfahren“, sagte ich bei einem meiner KI-Vorträge.

„Was ist ein Optimierungsverfahren?“, fragte ein etwa zehnjähriger Junge, der mit seiner Mutter da war.

Ich starrte ihn an und fühlte mich wie ein Schatzsucher, der die Schatztruhe gefunden hat, doch leider leer. „Äääh … ein Optimierungsverfahren … ja, das ist so … also …”, fing ich an zu stottern. “Du gibst ein bisschen da, dort nimmst du ein bisschen weg, und anderswo legst du wieder etwas drauf, bis das Ganze optimal läuft. Ohne eine Anleitung zu haben, wie viel du zugeben und abnehmen sollst.“

Der Junge starrte mich an und ich suchte im Kopf verzweifelt nach einem bildhaften Beispiel, mit dem ich einem Zehnjährigen eine Optimierung erklären konnte. Damit er versteht, auf welche Art künstliche neuronale Netze arbeiten.

Bis zum Abend überlegte ich. Nichts Gutes fiel mir ein. Wäre das Wiegen von Mehl ein bildhaftes Beispiel für eine Optimierung? Man gibt links etwas Mehl dazu, die linke Seite fällt tief, so gibt man rechts etwas dazu, und wieder links, bis die Waage im Gleichgewicht ist … Nö! Das ist ein zu einfaches Optimierungsverfahren, um damit bildhaft zu zeigen, wie ein KNN arbeitet.

Auch den ganzen Sonntag hindurch kam mir das Problem immer wieder in den Kopf. Ich musste mit jemandem sprechen. In Deutschland fielen mir leider nur wenige Menschen ein, die mit mir am Sonntag über künstliche neuronale Netze und Optimierungsverfahren diskutieren würden. Doch auch diese hoben nicht ab.

Vielleicht bekommen manche Freunde von mir Panik, wenn sie sonntags meinen Namen auf ihrem Smartphone-Display sehen. So habe ich meinen Neffen in Tschechien angerufen, der Informatiker ist. „Hey, Ondřej! Kannst du mit mir kurz über künstliche Intelligenz sprechen?“

„Immer gern“, sagte er.

„Ich will nur einem Kind an einem anschaulichen Beispiel erklären, wie ein Optimierungsverfahren funktioniert. Damit das Kind künstliche neuronale Netze als Optimierungsverfahren versteht. Irgendwas Alltägliches, ein Spiel vielleicht, das auch wie eine Optimierung arbeitet: Du gibst da etwas dazu und nimmst dort ein bisschen weg, bis die Sache optimal läuft.“

„Wie wenn du zwei gleiche Mengen Mehl wiegen willst?“, sagte er.

„Das habe ich auch überlegt“, sagte ich. „Da drehst du jedoch nur an zwei Parametern. Bei einem künstlichen neuronalen Netz änderst du aber schrittweise viele Gewichte der Verbindungen zwischen den Neuronen. Das ist so, wie wenn ich eine Kartoffelsuppe mit Steinpilzen koche:

Ich koche nie nach einem Rezept mit genauen Anweisungen und genauen Mengen der Zusätze, sondern durchs Probieren – ich mache die Suppe schrittweise optimal, optimiere sie also: Ich tue Kartoffel in die Suppe, Steinpilze, etwas Salz, etwas Pfeffer, Majoran, Butter, wieder Pfeffer und Salz … Wenn aber die Suppe plötzlich zu salzig ist, schmeiße ich noch zwei Kartoffeln hinein. Damit sie das Salz aus dem Wasser ziehen. Auch Wasser gieße ich nach. Dann muss ich aber wieder ordentlich pfeffern, damit die Suppe nicht zu fade ist. Gebe Knoblauch dazu … So lange schütte ich Zutaten in die Suppe und koste die Suppe nach jedem solchen Schritt, bis die Suppe super schmeckt. Mit dem Schmecken der Suppe ermittle ich somit schrittweise ihren Fehler und mache ihn nach jedem Schritt kleiner, indem ich der Suppe jeweils etwas zuführe.

Beim Training eines neuronalen Netzes werden nach jedem Durchlauf der Signale durch das Netz die Gewichte zwischen den Knoten (Neuronen) gestärkt bzw. geschwächt, so dass das Netz nach jedem Durchlauf der Signale seine Aufgabe besser löst. Dabei wird der Fehler des Netzes nach einem mathematischen Algorithmus (Gradientenabstiegsverfahren) ins Netz zurückgeführt, um den Fehler kleiner zu machen – das heißt dann Backpropagation of Error. Genau wie bei meiner Suppe: Immer wenn ich nach dem Schmecken der Suppe neue Zutaten hinzufüge oder manche durch Verdünnung sozusagen entnehme, ist das auch Backpropagation of Error.

„Na, dann hast du‘s doch!“

„Was habe ich?“

„Na, wie ein Optimierungsverfahren funktioniert! Am Beispiel vom Kartoffelsuppe-Kochen.“

„Stimmt!“, rief ich.

Epilog

So habe ich zuerst die Schublade für KNN jenseits von Magie gefunden – “Optimierungsverfahren” – und durch ein Training an Beispielen, das bei mir „Gespräch“ heißt, ein anschauliches Alltagsmodel eines solchen Optimierungsverfahrens entwickelt. Wie wenn ein künstliches neuronales Netz die Lösung für seine Aufgabe findet. Nur brauchte ich zwei Beispiele dafür: Das Wiegen von Mehl und das Kochen einer Suppe.

Ein künstliches neuronales Netz braucht dagegen Abertausende Beispiele, um die Lösung seiner Aufgabe zu finden. Oft auch Millionen. Deswegen müssen wir Menschen keine Angst vor KNN haben: Wir denken beim Herumprobieren bzw. Optimieren und benutzen unser gesamtes und mit dem Denken vernetztes Wissen dabei, das wir im Laufe unseres Lebens angesammelt haben: Unseren gesunden Menschenverstand.

Ein KNN hat keinen gesunden Menschenverstand, nicht einmal einen ungesunden. Ein KNN denkt nicht, es probiert nur mit Hilfe von mathematischen Algorithmen, bis es eine optimale Lösung für seine Aufgabe findet. Deswegen braucht es sehr viele Daten und sehr viel Zeit dafür. Und nur die Programmierer des Netzes, Menschen also, entscheiden, ob diese Lösung etwas taugt. Weil es sich nun mal um ein technisches Optimierungsverfahren handelt, das von Menschen entwickelt wurde und gesteuert und kontrolliert wird. Vom Denken keine Spur. Echt!

Avatar-Foto

Liebe Besucherin, lieber Besucher,

 
willkommen auf meinem SciLogs-Blog "Gehirn & KI".
 
Ich möchte hier über alle möglichen Aspekte der Künstliche-Intelligenz-Forschung schreiben. Über jeden Kommentar und jede Diskussion dazu freue ich mich sehr, denn wie meine Mutter oft sagte:
 
"Solange die Sprache lebt, ist der Mensch nicht tot."
 
Neues über künstliche Intelligenz, künstliche neuronale Netze und maschinelles Lernen poste ich häufig auf meiner Facebook-Seite: Maschinenlernen
 
Hier etwas zu meiner Laufbahn: ich studierte Chemie an der TU München und promovierte anschließend am Lehrstuhl für Theoretische Chemie der TU über die Entstehung des genetischen Codes und die Doppelstrang-Kodierung in den Nukleinsäuren.
 
Nach der Promotion forschte ich dort einige Jahre lang weiter über den genetischen Code und die komplementäre Kodierung auf beiden Strängen der Nukleinsäuren:
 
Neutral adaptation of the genetic code to double-strand coding.
 
Stichworte zu meinen wissenschaftlichen Arbeiten: Molekulare Evolution, theoretische Molekularbiologie, Bioinformatik, Informationstheorie, genetische Codierung.
 
Zur Zeit bin ich Fachdozent für Künstliche Intelligenz an der SRH Fernhochshule und der Spiegelakademie, KI-Keynote-Speaker, Schriftsteller, Bühnenliterat und Wissenschaftskommunikator. Auf YouTube kümmere ich mich um die Videoreihe unserer SRH Fernhochschule "K.I. Krimis" über ungelöste Probleme und Rätsel der Künstlichen Intelligenz.
 
U. a. bin ich zweifacher Vizemeister der Deutschsprachigen Poetry Slam Meisterschaften.
 
Mein Buch „Doktorspiele“ wurde von der 20th Century FOX verfilmt und lief 2014 erfolgreich in den deutschen Kinos. Die Neuausgabe des Buches erschien bei Digital Publishers.
 
Mein Sachbuch über Künstliche Intelligenz "Ist das intelligent oder kann das weg?" erschien im Oktober 2020.
 
Im Tessloff-Verlag erscheinen meine von Marek Blaha wunderschön illustrierten Kinderkrimis "Datendetektive" mit viel Bezug zu KI, Robotern und digitalen Welten.
 
Viel Spaß mit meinem Blog und all den Diskussionen hier :-).
 
Jaromir

33 Kommentare

  1. Zitat. Plötzlich kann aber der Übersetzer von Google (Googles Neural Machine Translation) zwischen Koreanisch und Japanisch übersetzen, obwohl die neuronale Maschine nur an Übersetzungen zwischen Englisch und Japanisch und Englisch und Koreanisch trainiert wurde

    Sie erklären diese Leistung mit der Hypothese, die Maschine hätte eine universelle Zwischensprache gefunden. Doch es lässt sich auch einfacher erklären, nämlich durch folgenden Übersetzungspfad:
    Koreanisch -> Englisch -> Japanisch

    Denn nach obiger Aussage kann die Maschine ja bereits zwischen Koreanisch und Englisch übersetzen und sie kann auch zwischen Englisch und Japanisch übersetzen. Auch ein guter Dolmetscher könnte die gleiche Leistung vollbringen. Einfach indem er anstatt einen Übersetzungsschritt zwei hintereinanderfolgende macht.
    Wobei ich davon ausgehe, dass der Übersetzer immer in beide Richtungen übersetzen kann, also Koreanisch Englisch und Englisch Japanisch.
    Eine grössere Leistung wäre es allerdings, wenn die Maschine durch Training nur Englisch -> Koreanisch und Englisch -> Japanisch beherrscht hätte und dann in der Lage wäre von Koreanisch nach Japanisch zu übersetzen. Das wäre bereits eine Stufe schwieriger.

    • Martin Holzherr: “Sie erklären diese Leistung mit der Hypothese, die Maschine hätte eine universelle Zwischensprache gefunden. Doch es lässt sich auch einfacher erklären, nämlich durch folgenden Übersetzungspfad: Koreanisch -> Englisch -> Japanisch”

      Jaromir: Mit Hilfe einer “Pivot”-Sprache, also einer Zwischensprache, wird tatsächlich klassisch übersetzt, wenn man keinen Übersetzer für zwei Sprachen hat. Wenn es also keinen Übersetzer zwischen Koreanisch und Japanisch gibt, lässt man zuerst den koreanischen Text ins Englische übersetzen und dann aus dem Englischen ins Japanische.

      Auch Google hat sich gefragt: Lernt die Maschine bei Ihrem Training eine gemeinsame Repräsentation der Sprachen, bei der Sätze mit der gleichen Bedeutung unabhängig von ihrer Sprache auf ähnliche Weise dargestellt werden? Baut sich die Maschine also eine „Interlingua“?

      Mithilfe einer dreidimensionalen Darstellung der internen Netzdaten konnte Google diese internen Merkmale visualisieren – man visualisierte die Aktivitäten des Netzes während seiner Arbeit an Übersetzungen. An dem Bild unter diesem Link des Google AI Blogs kann man das schön sehen: Sätze mit ähnlicher Bedeutung zeigen ähnliche Merkmale unabhängig von ihrer Sprache.

      Als Vergleich sollte die Maschine dann Sätze aus dem Koreanischen ins Japanisch über das Englische übersetzen. Diese Übersetzungen waren viel schlechter als die direkten mit Hilfe der internen Repräsentation der Bedeutungen. Hier das Original Paper dazu.

  2. Korrektur: Es muss bei den beherrschten Übersetungsfähigkeiten heissen:
    also Koreanisch -> Englisch, Englisch -> Koreanisch und Englisch -> Japanisch, Japanisch -> Englisch

  3. Lieber Herr Holzherr,

    ich muss jetzt nach dem wilden Schreiben des Beitrags heute am Sonntag 🙂 noch kurz in die Sauna. Kann Ihre Anmerkung also erst morgen ausführlich beantworten. Wenn es Sie aber interessiert, sehen Sie sich, bitte, den “Zero-Shot-Link” an und den darunter liegenden Blogbeitrag dazu von Google Brain an.

    Dort kann man den Kontextraum sogar graphisch bewundern. Die Maschine hat tatsächlich eine “universelle Sprache” entwickelt. Nur ist eine solche universelle Sprache dann doch etwas dürftig, denke ich, egal wir lange Übersetzungstexte aus diversen Sprachen der Maschine bei ihrem Training zur Verfügung standen, und das aus einem einfachen Grund: Auch gleich zu übersetzende Wörter und Sätze bedeuten in verschiedenen Sprachen meist nicht das Gleiche. Zum Beispiel haben die Tschechen zum Bier eine ganz andere Beziehung als Franzosen. 🙂

    Liebe Grüße

    Jaromir

  4. Ich verstehe nicht ganz warum man nicht 2 stufig vorgeht?
    Z. B. Im ersten Schritt wie es Herr Holzherr mit Englisch als Zwischencode meint und im zweiten Schritt optimiert wie Sie es vorgeschlagen haben nach Wortbeziehungen.

    Ähnlich könnte man es bei der Bildmustererkennung machen. Zuerst werden Muster die etwas über die Form aussagen analysiert und danach die feinen Muster.
    Vor rund 40 Jahren hat man diesen 1. Ansatz verfolgt. Die von der Videokamera gelieferten Bilder wurden mittels Kontrastregelung so manipuliert dass man Formmuster bekam die man mathematisch abbilden und vergleichen konnte.
    Vemutlich verhält es sich im Gehirn ähnlich. Es dürften zunächst gleiche Farbpixel verglichen und analysiert werden, danach nach übereinstimmenden typischen “Musterkombinationen” gesucht werden.

    • Elektroniker: “Ich verstehe nicht ganz warum man nicht 2 stufig vorgeht? Z. B. Im ersten Schritt wie es Herr Holzherr mit Englisch als Zwischencode meint und im zweiten Schritt optimiert wie Sie es vorgeschlagen haben nach Wortbeziehungen.”

      Jaromir: Solchen maschinellen zweistufigen Übersetzungen sind nahezu unbrauchbar. Da ist der Weg zu lang für eine gute Übersetzung. Schon wenn Menschen über eine Sprache in eine Dritte übersetzen, passieren viele Fehler. Google’s Neural Machine Translation, also der Googel-Übersetzer, übersetzt jetzt, wenn ich mich nicht irre, zwischen 113 Sprachen. Die direkte Übersetzung von einer Sprache in eine andere, ohne eine Mittelsprache, spart viele Ressourcen. Außerdem verbessern die vielen Übersetzungen der 113 Sprachen ständig die interne Repräsentation dieser Sprachen. Das sieht man ja auch daran, wie die Übersetzungen mit dem Google-Übersetzer seit 2016 nahezu furchterregend besser werden – seit Google das neuronale Übersetzungssystem verwendet.

      Ich finde es aber auch im Zusammenhang mit unserem Gehirn und wie wir Sprachen lernen, sehr interessant, dass der Google-Übersetzer eine interne universelle Sprache herausbildete. Wie ist es in unserem Gehirn, wenn wir mehrere Sprachen können? Oder anders gefragt: Wie wird eine Sprache im Gehirn auf der tiefsten Ebene repräsentiert? Da sind Bilder und Bedeutungen sicher grundlegendere Merkmale als Wörter. Unser Gehirn hat sich ja Millionen Jahre lang entwickelt, ohne Sprachen zu beherrschen. Die Sprache ist eine relativ neue Erfindung des Gehirns. Deswegen muss die Sprache auch in unserem Gehirn – beim Sprechen und Zuhören – in fundamentalere Merkmale übersetzt werden, oder?

  5. Ihre Theorie bezüglich der Objekterkennung hat andere Ursachen. Der Mensch benötigt oft nur eine Begegnung mit dem Objekt, um es zu “erkennen”, da er
    ER-FAHHRUNGEN macht. Das System Gehirn ist so programmiert. Erfahrungen werden mit Gefühlen bewertet wie angenehm, unangenehm, neutral, gefährlich,schmackhaft etc. Der Ablauf in den neuronalen Netzen ist da doch zweitrangig, da sie diese Er-fahrungen nur programmieren. So hat jeder seine ERFAHRUNGEN. Meine erste Erfahrung 1987 als DDR-Bürger vom der BRD waren zum Beispiel Obdachlose in Hannover zu sehen, was mein Bild von dieser Gesellschaft beeinflusst hat. Die Objekterkennung ist als ein Produkt von Erfahrungen, was sie aus als LERNEN bezeichnen können. Ihren neuronalen Netzen der künstlichen Intelligenz sind Obdachlose zum Beispiel gleichgültig, da sie diese nicht mit sozialer Ungerechtigkeit verbinden .Womit eigentlich ?

    • Querdenker: “Ihre Theorie bezüglich der Objekterkennung hat andere Ursachen. Der Mensch benötigt oft nur eine Begegnung mit dem Objekt, um es zu “erkennen”, da er ER-FAHHRUNGEN macht.”

      Jaromir: Ich verstehe nicht ganz, was Sie damit meinen. Der Mensch erkennt im Unterschied zu einer Maschine Objekte, wenn er sie vorher nur wenige Male gesehen hat. Manchmal reicht einmal, nicht aber immer. Ein Kind muss vielleicht dreimal oder viermal einen Affen gesehen haben, um dann bei jeder Affenart rufen zu können: “Mama! Ein Affe!” Trotzdem gibt es Affenarten, bei denen auch eine Erwachsener überlegen muss, ob’s Affen sind. Ein Mensch braucht so wenige Beispiele (um danach verallgemeinern zu können) aufgrund seines gesunden Menschenverstands und des Wissens, dass er im Leben angesammelt hat. Das beeinhaltet selbstverständlich auch seine Erfahrungen, wie Sie schreiben. Zum Beispiel sieht ein Mensch im Dunkeln in einer Stadt hinter einer Hausecke einen Tiger herauslugern. Der Mensch hat aber sein Wissen (und seine Erfahrung) und seinen gesunden Menschenverstand, der ihm sagt: “Das ist kein Tiger! In der Stadt gibt es keine Tiger. Das ist eine Katze.” So hat der Mensch an einem Schatten bzw. Umriss eine Katze erkannt, obwohl die Katze im Dunkeln groß wie ein Tiger aussah.

      Dass wir Objekte eher an ihren Umrissen erkennen und nicht an ihren Texturen, ist nicht meine Theorie, das ist so. 🙂 Das zeigen ja auch die Forscher in dem Artikel, den ich im Beitrag dazu verlinkt habe: Wenn an mir eine Katze mit dem Fell einer Giraffe vorbeiläuft, erkenne ich die Katze als Katze und nicht als Giraffe.

  6. Ich würde Sie Herr Konecny als Spezialist für Molekulare Evolution um Beantwortung einer Frage bitten.

    Gibt es eine Art systematischer Zufallsgeneratorfunktionen in der Biologie, die abgesehen von der Zweigeschlechtlichkeit (also vorher), die Genvariablen erzeugt haben, weitgehend unabhängig von willkürlichen Mutationen?

    Vergleichbar mit Zufallsgeneratorschaltungen der Elektronik/Informatik. Aus zählenden elektronischen Zählerketten werden Zufallszahlen abgeleitet.

    Derartiges könnten eventuell auch chemische Prozessketten, gekoppelter und in Wechselwirkung stehender DNA Abschnitte auch bewirken.

    Aus der „unendlichen“ Menge aller Möglichkeiten würde systematisch, nach im Sinne des Darwinismus erfolgreichen Variablen gescannt, so wie die Wissenschaft nach immer neuem Wissen „schürft“.

    • Elektroniker: “Gibt es eine Art systematischer Zufallsgeneratorfunktionen in der Biologie, die abgesehen von der Zweigeschlechtlichkeit (also vorher), die Genvariablen erzeugt haben, weitgehend unabhängig von willkürlichen Mutationen?”

      Jaromir: Sie meinen, ob in bilogischen Wesen gezielt und systematisch Mutationen erzeugt werden? Das eher nicht, das klingt nach Teleologie, also nach einem Ziel in der Evolution. In bilogischen Körpern passieren ständig wilkürliche Mutationen – das ist also ein Zufallsmutationsgenerator, jedoch kein systematischer. Wie oft die DNA mutiert, hängt von der “Robustheit” des Körpers ab, zum Beispiel mutiert krankes Gewebe schneller als gesundes, aber auch von der Umgebung, zum Beispiel von diversen Strahlen, die auf uns ständig einprasseln. Manche DNA-Abschnitte sind für Mutationen anfälliger als andere, was vielleicht auch Selektionsvorteile bietet, sicher aber keine zielgerichteten, also nicht systematisch.

      Na, ja, vielleicht könnte man manche Virenarten als solche Mutationsmaschinen bezeichnen. Diese wurden aber nur selektiert, weil ihnen die schnellen Mutationen eine Überlebenschance boten. Deswegen versetzen uns ja immer neue Grippeviren in Schrecken, gegen die die alte Impfung nicht hilft. Hier könnte ich mir durchaus ein Protein vorstellen, das solche Mutationen systematisch steuert. Weil ein solcher Virenstamm gut überlebt und sich schnell verbreitet und deswegen dieser Mechanismus nicht wegselektiert wurde.

      Ich gebe aber zu, dass ich mich langsam mit künstlicher Intelligenz besser auskenne als mit molekularer Evolution. Meinen letzten Artikel in molekularer Evolution habe ich vor 20 Jahren veröffentlicht. 🙂

  7. Künstliche Neuronale Netze arbeiten genauso magisch wie natürliche neuronale Netze – also wie beispielsweise Carl Magnusson, wenn er Schach spielt. Carl Magnusson kann seine Züge zwar erklären wie das künstliche neuronale Netze auch irgendwann können werden, aber die Erklärung hilft wenig um selbst Schachchampion zu werden.

    Allerdings ist Carl Magnusson in seiner Ganzheit – also als Mensch mit Urteilsvermögen, Erlebnissen, Gefühlen und Überlegungen – heutigen künstlichen neuronalen Netzen um ein Vielfaches überlegen. Weil der Mensch in seinen geistigen und anderen neuronalen Aktivitäten um ein Vielfaches “tiefer” operiert als jedes heutigen neuronale Netz.

    Heutige neuronale Netze arbeiten entweder wirklich auf der perzeptiven, auf der sensorischen Ebene (sie finden “Objekte” in Gesehenem oder Gehörtem) oder aber sie arbeiten ähnlich wie unsere unterste Verarbeitungsebene aber auf anderen, nicht sensorischen Daten.

    Die magischen Leistungen eines Carl Magnusson im Schach machen CarlMagnusson genauso wenig zum Menschen wie es die magischen Leistungen einer künstlichen Intelligenz tun.
    Carl Magnusson ist vielmehr deshalb ein Mensch, weil er die Welt in der er lebt, (teilweise) versteht, weil er mit anderen Tieren und Menschen kommunizieren kann, weil er selbst sinnvoll darin agieren kann und weil er viele Zusammenhänge entweder versteht, sie erahnt oder sie mindestens versucht zu verstehen. Zudem gibt Carl Magnusson seinem Leben einen mindestens momentanen Sinn, weil er bestimmte Ziele verfolgt und auf Dinge hinarbeitet.

    Vergleicht man Carl Magnusson mit Alpha Go oder Alpha Zero erkennt man sofort den Unterschied: Alpha Go kennt die Welt in der es operiert nicht, trotzdem es Spiele gewinnt, wenn man es mit Strom, Software und den richtigen Daten füttert. Alpha Go ist nicht in der Lage Ziele zu verfolgen, weil es keine eigenen Ziele hat und keinen eigenen Lebenssinn (und sei er noch so flüchtig) kennt. Alpha Go erlebt auch nichts beim Spielen, es freut sich nicht über den Sieg, weil es gar nichts weiss was ein Sieg für einen Menschen bedeutet.

    Nun könnte man gegen meine obige Darstellung einwenden, dass ich von anderen Dingen als von Intelligenz gesprochen habe. Unter anderem von Erlebnissen, Empfindungen, Gefühlen, Zielen. Doch es ist ein Irrtum zu glauben, es könne eine für uns Menschen sinnvolle Intelligenz ohne Erlebnisse, Empfindungen, Gefühlen und Zielen geben.

  8. Martin Holzherr,
    Das Schachspiel ist eine Möglichkeit zwischen künstlicher Intelligenz und menschlicher Intelligenz zu unterscheiden.
    Zwischen dem Schachcomputer und dem Menschen gibt es einen grundsätzlichen Unterschied. Der Computer berechnet alle Folgezüge im Vorraus, mit allen ist jetzt mal 8 Züge gemeint, und schlägt den optimalen Zug vor. Der Mensch kann das in kurzer Zeit nicht, ist dem Computer auf diesem Gebiet unterlegen, aber er kann durch grundsätzliche Überlegungen zu einer Stellung im Voraus sagen, ob dieser Zug positionell richtig oder falsch ist.

    Ich glaube, die ganze Verwirrung kommt durch den Begriff”künstliche Intelligenz”.
    Was der Computer macht, hat nichts mit Intelligenz zu tun.
    Ein Blinkcomparator in einem Fernrohr denkt nicht, er zeigt nur die Bewegung eines Himmelkörpers in einem statischen Umfeld.
    Ein Näherungssensor denkt nicht, er zeigt nur eine sich nähernde Person, die man als Mensch nicht so schnell wahrgenommen hätte.
    Eine Ladeautomatik beim Flugzeug denkt nicht, sie berechnet nur aus den Daten den richtigen Landeanflug.
    Diese ganze Assistenzsystem sind dem Menschen überlegen, aber wenn etwas Außergewöhnliches passiert, versagen sie.

    • fliegenklatsche: “Der Computer berechnet alle Folgezüge im Vorraus, mit allen ist jetzt mal 8 Züge gemeint, und schlägt den optimalen Zug vor. Der Mensch kann das in kurzer Zeit nicht, ist dem Computer auf diesem Gebiet unterlegen, aber er kann durch grundsätzliche Überlegungen zu einer Stellung im Voraus sagen, ob dieser Zug positionell richtig oder falsch ist.”

      Jaromir: DeepBlue von IBM, das Schaprogramm, das Kasparov besiegte, spielte regelebasiert, hat also alle Folgezüge berechnet und den besten ausgewählt. AlphaGo, AlphaGo Zero und AlphaZero von DeepMind spielen aber anders. Im Grunde wissen wir nicht wie, wie also ihre internen Repäsentationen sind – wie sie bestimmte Züge finden. Auf jeden Fall spielen die Programme vor allem Go so unorthodox, dass Go-Großmeister von den Programmen lernen. Da man Go als “hoch intuitives” Spiel ansieht, viel komplexer und undurchsichtiger als Schach, müssen die Programme eine Art “Intuition” entwickelt haben – anders geht’s nicht. 🙂

      Schon AlphaGo Zero lernte Go, indem es von Null aus nur gegen sich selbst spielte, also an keinen menschlichen Partien spielen lernte. Nur die Regeln wusste das Programm und wurde für gewonnene Spiele bzw. gute Züge/Positionen belohnt – das heißt bestärkendes Lernen (reinforcement learning). AlphaZero kann nicht nur Go, sondern auch Schach und andere Spiele. Das Programm ist von keinem menschlichen Großmeister zu schlagen.

      Selbstverständlich geht es um mathematische Optimierungsprogramme, doch sie können so verallgemeinern wie kein anderes Optimierungsverfahren. Da wir oft nicht wissen, welche inneren Merkmale der verarbeiteten Muster diese Programme finden, muten sie schon etwas magisch an. In meinem Beitrag wollte ich künstliche neuronale Netze als Optimierungsverfahren einordnen, im Grunde sind sie und leisten sie aber viel mehr als klassische Optimierungsverfahren.

    • fliegenklatsche: “Ich glaube, die ganze Verwirrung kommt durch den Begriff”künstliche Intelligenz”.
      Was der Computer macht, hat nichts mit Intelligenz zu tun.”

      Jaromir: Tiefes Lernen (tief lernende neuronale Netze) ist eine Abteilung des Maschinenlernens, das Maschinenlernen ist eine Abteilung der “Künstliche Intelligenz”-Forschung. Ein solches Programm kann mit zunehmender Erfahrung seine Leistung beim Lösen einer Aufgabe verbessern. Einer Aufgabe, deren Lösung mindestens einen Aspekt der menschlichen Intelligenz erfordert. In diesem Sinne haben Programme des Maschinenlernens, d. h. künstliche neuronale Netze, schon etwas mit Intelligenz zu tun, auch wenn vorläufig eher etwas mit ihren einzelnen Aspekten.

      Wir sollten bei solchen Diskussionen aber immer zwischen regelbasierten Programmen und lernenden Programmen unterscheiden. Wenn Sie “Computer” sagen, denken Sie wohl eher an regelbasierte Programmen. Ich schreibe über tief lernende neuronale Netze, wie Herr Holzherr in einem Kommentar anmerkt.

  9. Zu J. Konecny
    Was ich meine:
    Die Objekterkennung der Menschen ist Bestandteil der Evolution. Im Zeitalter der Fressfeinde hatten sie als Mensch nicht die Möglichkeit ein Objekt falsch zu bewerten und das beim ersten mal. Ein zweites mal, also eine falsche Objektbewertung, hätte es nach nicht gegeben da man Beute geworden wäre.(Sicher haben nur die überlebt, die Objekte am schnellsten bewerten konnten)
    Die natürliche Intelligenz wird hier durch ein Gefühl (Angst)programmiert/ gesteuert, was ein Objekt(Tier) in Sekundenbruchteilen einschätzt ob es gefährlich, nicht gefährlich ist. Intelligenz bei Menschen und Tieren hat also etwas mit Gefühlen zu tun und dafür wurden im Zwischenhirn die Nervenbündel Hippocampus bzw. Amygdala geschaffen. Das hat nichts mit Menschen Verstand zu tun, sondern ist der Überlebenstrieb bzw. die Vielschichtigkeit der neuronalen Netze das Stammhirn.

    • Querdenker: “Das hat nichts mit Menschen Verstand zu tun, sondern ist der Überlebenstrieb bzw. die Vielschichtigkeit der neuronalen Netze das Stammhirn.”

      Jaromir: Ich zitiere hier Wikipedia, auch wenn’s unwissenschaftlich ist :-): “gesunder Menschenverstand (common sense) bedeutet den einfachen, erfahrungsbezogenen und allgemein geteilten Verstand des Menschen bzw. dessen natürliches Urteilsvermögen.”

      In diesem Sinne schließt der gesunde Menschenverstand auch unsere Erfahrung ein. Ich glaube, wir reden hier ein bisschen aneinander vorbei. In meinem Blogbeitrag habe ich ja geschrieben, dass der Mensch Objekte eher an ihren Formen erkennt, während künstliche neuronalen Netze (KNN) an ihren Texturen. Der Mensch kann Objekte aber im Gegensatz zu KNN weiterhin relativ gut erkennen, auch wenn ihre Bilder plötzlich Störungen aufweisen, wenn etwas Ungewöhnliches in die Bilder kopiert wurde, oder wenn sich die Textur (die Beschaffenheit der Oberfläche) der Objekte ändert. Dazu hilft dem Menschen sein gesunder Menschenverstand (common sense).

      Eine Maschine hat keinen gesunden Menschenverstand und lässt sich deswegen durch Ungewöhnliches leicht verwirren. Wo die Mustererkennung bzw. Objekterkennung in unserem Gehirn stattfindet, ist eine andere Frage – die habe ich aber in diesem Beitrag nicht angesprochen.

  10. @Querdenker
    Unser Gehirn arbeitet per Mustervergleich – wobei bestimmte Muster bevorzugt werden (und andere Muster ignoriert). Durch diese Vorauswahl ist unser Gehirn so schnell/effektiv.

    • KRichard: “Unser Gehirn arbeitet per Mustervergleich – wobei bestimmte Muster bevorzugt werden (und andere Muster ignoriert). Durch diese Vorauswahl ist unser Gehirn so schnell/effektiv.”

      Jaromir: Das sehe ich auch so.

  11. @fliegenklatsche (Zitat): Der Computer berechnet alle Folgezüge im Vorraus, mit allen ist jetzt mal 8 Züge gemeint, und schlägt den optimalen Zug vor.
    Nein, so wie sie es beschreiben gehen Algorithmen vor, die eine Spielbaum verwenden.
    Es gibt aber auch KI-Programme, die ohne Spielbaum arbeiten und dennoch recht gut im Schach abschneiden – gleich gut oder besser als ein Amateur.

    Überhaupt bringen sie viele Beispiele von elektronischen Regelungsvorgängen und Algorithmen, die es schon lange vor künstlicher Intelligenz und Deep Learning gab. Bei den Artikeln von Jaromir Konecny geht es aber um Deep Learning und künstliche neuronale Netze und nicht einfach um Computeralgorithmen im allgemeinen. Das ist schon ein Unterschied.

    Typische Aufgaben, die ein Deep Learning-Programm bewältigen kann sind etwa eine Person oder ein Tier in einer Gruppe von Personen oder Tieren zu identifizieren. Diese Leistung geht nicht auf einen manuell programmierten Algorithmus für genau diese Aufgabe zurück, sondern auf ein Programm, das zu allgemeinen Lernprozessen fähig ist und das beispielsweise nach ein paar hundert Tierbildern, in dem man die Tiere markiert und mit Namen versehen hat, in der Lage ist Tiere in nicht vorher trainierten Bildern richtig zu benennen.

    Natürlich haben sie mit folgenden Aussagen recht:
    Ein Näherungssensor denkt nicht
    Eine Landeautomatik beim Flugzeug denkt nicht,

    Nur geht es hier eben um wesentlich komplexere Aufgaben als etwa die, auf einem mit Funkfeldern markierten Flughafen automatisch zu landen. Wenn schon müsste man gewisse Leistungen von KI-Programmen vergleichen mit der Fähigkeit eines Piloten auf einem Flughafen, den er nicht kennt und noch nie gesehen hat, korrekt zu landen.

  12. You get what you pay for und bei KI-Bilderkennungsprogrammen ist das beispielsweise eine gute Leistung in CIFAR-10 (Der CIFAR-10-Datensatz (Canadian Institute For Advanced Research) ist eine Sammlung von Bildern, die häufig zum Training von maschinellem Lernen und Computer Vision Algorithmen verwendet werden. Der CIFAR-10 Datensatz enthält 60.000 32×32 Farbbilder in 10 verschiedenen Klassen[3] Die 10 verschiedenen Klassen repräsentieren Flugzeuge, Autos, Vögel, Katzen, Rehe, Hunde, Frösche, Pferde, Schiffe und Lastwagen. Es gibt 6.000 Bilder pro Klasse[4].)

    Doch wie oben von Jaromir Konecny erwähnt, heisst eine gute Leistung in CIFAR-10 noch lange nicht, dass die Bilderkennung in einer realen Umgebung gute Leistungen vollbringt und zudem kaum Verwechslungen macht. Der Testsieger in CIFAR-10 ist nicht automatisch eine gute Software für ein selbstfahrendes Auto, denn die Bildverarbeitung im selbstfahrenden Auto muss mit unterschiedlichen Beleuchtungsverhältnissen, Niederschlägen (Regentropfen,Schneeflocken, etc) und vielem mehr zurechtkommen.

    Zudem heisst eine gute Leistung im Bilderkennen eben überhaupt nicht, dass das Bild die aus menschlicher Sicht richtigen Kriterien anwendet. Und in der Tat tut es das ja auch nicht. Offenbar verwenden die Convolutional Neural Networks, die in CIFAR-10 obsiegen als eines der Hauptkriterien die Textur eines Objekts um ein Objekt zu identifizieren. Erkennt es Elefantenhaut meint es einen Elefanten vor sich zu haben, auch wenn die Elefantenhaut an eine Giraffe angeklebt ist. Ein Mensch könnte einen solchen Fehler nie begehen, denn die Giraffe ist für ihn ein Tier mit einem langen Hals und langen Beinen und er erkennt auch dann eine Giraffe, wenn sie in einer Elefantenhaut steckt.

    Überhaupt scheint mir das ein Grundproblem von Lernen anhand von Bildern mit Markierungen (supervised learning): Das System lernt eine Aufgabe, schneidet immer besser ab, aber über den Rest der Welt lernt es überhaupt nichts. Und ich behaupte nun: Ein System, dass seine Tiere kennt, weil es lange auf diese Tiere (oder was auch immer) trainiert wurde, das ist in der realen Welt – beispielsweise als Bilderkennung in einem autonomen Auto – noch lange nicht kompetent.
    Vielleicht bräuchte es einen ganz anderen Lernansatz um kompetent für die Realität, also für die Vielfalt unserer täglichen Umgebungen, zu werden. Hier ein Vorschlag: Das System sollte ähnlich wie ein Kleinkind zuerst nur beobachten, höhren, fühlen und einfachste Aktionen ausführen und das fast vollständig ohne Hilfe von aussen – also unsupervised. Eingebaut müsste es dabei das Bedürfnis haben, beispielsweise das Verhalten von Objekten zu “verstehen” in dem es korrekte Voraussagen macht. Wenn beispielsweise eine Kaffetasse über den Tischrand rutscht, sollte es den Fall der Tasse “erwarten”. All diese Erfahrungen und Erwartungen an das Verhalten von Objekten solle das KI-System dann auf immer abrufbar halten und in der Lage sein diesen Erfahrungsschatz sinnvoll auszubauen, wobei es zu Verallgemeinerungen, Revisionen von Erwartungen und Spekulationen über Alternativen zum Beobachteten in der Lage sein müsste. Am ehesten wird dieser Ansatz noch vom Projekt iCub

  13. Sobald die Kaffeetasse als mechanisch zusammenhängendes Objekt erkannt wird, welches nicht mit der Tischfläche mechanisch zusammenhängt, dann kann man mit der Havok Physik-Engine Voraussagen über ihr Verhalten machen.
    Wenn die Havok Physik-Engine wie häufig in Spielen verwendet wird, dann fällt natürlich die schwierige Erkennung der mechanisch zusammenhängenden Objekte weg.

  14. @Karl Bednarik (Zitat): dann kann man mit der Havok Physik-Engine Voraussagen über ihr Verhalten machen

    Das MIT Computer Science & Artificial Intelligence Lab hat das Projekt Neural Physics Engine lanciert.

    Fragment aus der Website (übersetzt mit DeepL):
    Wir haben eine objektbasierte neuronale Netzwerkarchitektur entwickelt, um prädiktive Modelle der intuitiven Physik zu lernen, die auf variable Objektanzahl und variable Szenenkonfigurationen mit nur räumlicher und zeitlicher lokaler Berechnung extrapoliert.

    Auf der Ebene des Physikprogramms spiegelt die Architektur der Neural Physics Engine (NPE) explizit eine kausale Struktur in Objektinteraktionen wider, indem sie die Objektdynamik in paarweise Interaktionen umwandelt. Als prädiktives Modell der physikalischen Dynamik modelliert die NPE den zukünftigen Zustand eines einzelnen Objekts als Funktionszusammensetzung der paarweisen Wechselwirkungen zwischen ihm und anderen benachbarten Objekten in der Szene.

  15. Das menschliche Auge tastet ein Gesicht durch schnelle Augenbewegungen (3-4 Sakkaden pro Sekunde) ab, wobei es typischerweise die Augen- und Mundpartie länger abtastet als den Rest.
    Die relativen Beziehungen der Objektbestandteile spielen also für das menschliche Erkennen eine wichtige Rolle. Bei den in der KI benutzten CNNs dagegen ist bekannt, dass sie ein Gesicht auch dann noch als “normal” betrachten, wenn man die Position der Augen und des Mundes miteinander vertauscht.
    Mir scheint, dass das Sehen für den Menschen auch ein prozeduraler Vorgang ist, der mit einer Verschiebung der Aufmerksamkeit auf verschiedene Objektuntereinheiten verbunden ist.
    Das aber fehlt bis jetzt bei der Objekterkennung durch künstliche neuronale Netze.

  16. Neural Networks seem to follow a puzzlingly simple strategy to classify images geht auf die simple, zu Fehler führenden Strategie von CNNs ein. Als Eingangsbild wählt es eine “durcheinandergeschütteltes” Bild, ein Bild also, dessen Bildteile chaotisch umsortiert wurden. Doch ein CNN wird dadurch kaum gestört. Es erkennt das Dargestellte fast so gut wie mit dem Originalbild.

    Einen erhellenden Abschnitt aus dem Artikel will ich hier wiedergeben (übersetzt von DeepL): Eines der größten Probleme ist jedoch sicherlich die Aufgabe der Bildklassifizierung selbst: Wenn lokale Bildmerkmale zur Lösung der Aufgabe ausreichen, gibt es keinen Anreiz, die wahre “Physik” der Natur zu erlernen. Wir werden die Aufgabe selbst so umstrukturieren müssen, dass Modelle dazu gebracht werden, die physische Natur von Objekten zu erlernen. Dies muss wahrscheinlich über das rein beobachtende Lernen von Zusammenhängen zwischen Input- und Output-Features hinausgehen, um es Modellen zu ermöglichen, kausale Abhängigkeiten zu extrahieren.

  17. Bilderkennungssysteme sind heute zu erstaunlichen Leistungen fähig: Sie können Unterschiede erkennen, die selbst Menschen entgehen und beispielsweise ein Insekt identifizieren, das mittels Mimikri wie eine Wespe aussieht aber eine Fliege ist.

    Doch es kann schwierig sein, ein gutes Bilderkennungssystem umzutrainieren, so dass es anschliessend andere Bilder oder eine von ihm noch nicht erfasste Bilder eine Bildgruppe (wie etwa Kampfflugzeuge oder Käfer) voneinander unterscheiden und richtig kategorisieren kann. Dieses Umtrainieren nennt man übrigens Transfer-Learning. Gemäss dem vom Jaromir Konecny verlinkten Artikel über Transfer-Learning kommt man häufig nicht darum herum, auf die tieferen Schichten eines erfolgreich trainierten Bilderkennungsystems beim Transfer-Learning zu verzichten. Man entfernt also die Schichten welche schliesslich die “richtige” Antwort, die Objektbenennung also, liefern und arbeitet nur mit den Schichten weiter, die etwa charakteristische Kanten,Formen und Texturen (Elefantenhaut,Tigerstreifen, etc) herausarbeiten.
    Mir scheint, es müsste möglich sein, ein sehr evolviertes Bilderkennungssystem zu schaffen, bei dem dieser Schritt nicht nötig ist, eines, das also wie geschaffen ist für Transfer-Learning. So stelle ich mir ein solches System vor: Das Bilderkennungssystem versucht gar nicht Objekte zu benennen und die Benennung als Resultat zu liefern, sondern es erzeugt statt dessen eine dreidimensionale Objektrekonstruktion und ordnet diesem 3D-Objekt dann Eigenschaften zu, die erkannt wurde. Solche Eigenschaften könnten im Falle einer Katze etwa die Schnurrhaare sein, die Augenfarbe, die Zeichnung des Fells, die Existenz von Krallen etc. Doch das System würde auf Diagnose “Katze” verzichten. Diese Diagnose würde bei Bedarf dann vom Endystem aufgrund dieser Eigenschaften gemacht werden, wobei ich mit dem Endsystem das Bilderkennungssystem meine, welches das von mir beschriebene zum Transfer-Learning benutzt hat. Evolviert könnte dieses System sein, indem es auch Objektbeziehungen als Eigenschaften angibt. Wie etwa: “Katzenähnliches Objekt liegt auf sonnenbeschienenem Hausdach” oder “Katzenähnliches Objekt schmiegt sich an Beine eines Kindes an”

  18. Zu M. Holzherr:
    Warum tastet das Auge wohl die Augen-und Mundpartien zuerst ab ? Beobachten sie sich bitte selbst dabei eingehend. Die Augen des Anderen sind für unser Bewertungssystem die wichtigste Informationsquelle , da sich in ihnen die Emotionen zuerst widerspiegeln. Wir erkennen also dank unserer Empathie, die evolutionär gegeben ist, den psychischen Zustand des Anderen zuerst in seinen Augen bzw. Mundwinkeln.(Drehen sie als Beispiel beim Fernsehen den Ton ab und beobachten sie die Personen ohne ihre Stimme zu hören. Sie erkennen hierbei die wahre Person ,ob sie lügt oder nicht, schneller ) Diese Bewertung erfolgt intuitiv und unabhängig vom Verstand, der letztlich diese Bewertung dann auch nur übernimmt. Künstliche Intelligenz muss menschliche Empathie besitzen, um diese Bewertung vornehmen zu können, was nicht möglich ist, da Gefühle nonverbale Kommunikationsmittel sind.

  19. @Holzherr
    Mit der Annahme, dass beim menschlichen Sehen eine Verschiebung der Aufmerksamkeit auf verschiedene Objektuntereinheiten erfolgt – sind sie auf der richtigen Spur.
    Das bekannteste Beispiel dazu ist das [Gorilla-Experiment] – wo die Versuchspersonen häufig eine als Gorilla verkleidete Person übersehen, wenn sie sich nur auf den Ball oder die hell gekleideten Spieler konzentrieren.

  20. Ein Bild zu verstehen (Mensch) ist nicht das Gleiche wie die Objekte in einem Bild zu identifizieren (KI).
    Beispiel: Betitelt ein KI-System ein Bild so: “Katze schlägt mit Pfote auf Kopf eines Hundes ein”, so ist das wohl alles, was das KI-System zum Bild zu sagen hat. Doch für einen Menschen bedeutet das Bild viel mehr. Als Mensch erwarten wir eher, dass der Hund die Katze angreift. Falls wir Blutspuren im Fell des Hundes erkennen, wissen wir, dass der Hund kurz vorher bereits durch einen Krallenhieb verletzt wurde. Stehen Katze und Hund auf einem Tisch, nehmen wir an, es seien Haustiere und denken, sie könnten vom Tisch herunterfallen. Doch wir wissen auch, dass Hund und Katz selbst beim Kampf berücksichtigen, dass sie auf einem Tisch stehen und dass der Hund eher herunterspringt als herunterzufallen.

    Dieser Vergleich zeigt, wieviel Wissen ein Mensch bei der Interpretation eines Bildes “spielen” lässt. Solange eine künstliche Intelligenz das nicht macht, weil sie es nicht kann, solange wird sie den Menschen nicht ersetzen können und nicht auf gleicher Stufe mit ihm stehen.

  21. KI-Programme, die auf magische Art und Weise ein verborgenes Muster oder einen Zusammenhang aufdecken müssen wir weniger fürchten als KI-Programme, die auf berechnende Art und Weise die Leute manipulieren, abzocken und hinters Licht führen.

    Doch heute können KI-Programme das zweite gar nicht, weil ihnen die Fähigkeit zum schlussfolgernden und kausalen Denken fehlt. Das erledigen heute immer noch Menschen. Wenn also ein KI-Programm Menschen ausnutzt und sie manipuliert, dann ist nur der Teil, welcher Muster und Zusammenhänge erkennt oder erahnt, der künstlichen Intelligenz zuzurechnen. Der Teil aber, der die böse Absicht verwirklicht, der Teil, der den “Kunden” manipuliert und lenkt, der ist den Menschen zu verdanken, die das KI-Programm zu ihrem Nutzen einsetzen.

    Doch das soll sich ändern. Und es muss sich ändern, wenn KI-Programme es mit Menschen aufnehmen wollen und wenn KI-Programme mehr werden sollen als Tools. Deshalb ist kausales Schlussfolgern, kausale Inferenz ein so heisses Forschungsthema. Im Artikel The Seven Tools of Causal Inference, with Reflections von Judea Pearl , dem Erfinder der Bayesianischen Netzwerke, werden viele Argumente aufgeführt, warum kausales Denken so wichtig ist. Wichtig ist beispielsweise die Fähigkeit zwischen Ursache und Effekt zu unterscheiden, wie das ein System kann, welches folgende 5 Fragen beantworten kann:

    – Wie wirksam ist eine bestimmte Behandlung bei der Prävention einer Krankheit?
    – War es die neue Steuererleichterung, die dazu führte, dass unser Umsatz stieg?
    – Welche jährlichen Gesundheitskosten werden durch Fettleibigkeit verursacht?
    – Kann die Einstellung von Aufzeichnungen einen Arbeitgeber nachweisen, der sich der Diskriminierung aufgrund des Geschlechts schuldig gemacht hat? und
    Ich bin dabei, meinen Job zu kündigen, aber sollte ich?

  22. Ich glaube, die ganze Verwirrung kommt durch den Begriff”künstliche Intelligenz”.

    Was der Computer macht, hat nichts mit Intelligenz zu tun. Ein Blinkcomparator in einem Fernrohr denkt nicht, er zeigt nur die Bewegung eines Himmelkörpers in einem statischen Umfeld.

    Ein Näherungssensor denkt nicht, er zeigt nur eine sich nähernde Person, die man als Mensch nicht so schnell wahrgenommen hätte.
    Eine Ladeautomatik beim Flugzeug denkt nicht, sie berechnet nur aus den Daten den richtigen Landeanflug.

    Diese ganze Assistenzsystem sind dem Menschen überlegen, aber wenn etwas Außergewöhnliches passiert, versagen sie.

Schreibe einen Kommentar


E-Mail-Benachrichtigung bei weiteren Kommentaren.
-- Auch möglich: Abo ohne Kommentar. +