Neues und altes Bewusstsein?

BLOG: Heidelberg Laureate Forum

Laureates of mathematics and computer science meet the next generation
Heidelberg Laureate Forum

Mindestens ebenso wichtig wie die offiziellen Vorträge und Vorträge im Heidelberger Preisträgerforum sind die Möglichkeiten zu informellen Gesprächen mit den Preisträgern, Gästen und Nachwuchswissenschaftlern. Im interessantesten Falle ergänzen sich Vorträge und Gespräche.

Semantische Querverbindungen beim HLF

Heute, am Freitag, ist das HLF auf den Campus St. Leon-Rot von SAP umgezogen, und während der Kaffeepause hatte ich die Gelegenheit, kurz mit Alexei Efros zu sprechen, der am Dienstag einen der beiden Vorträge über Deep Learning gehalten hatte (hier ist ein schöner Beitrag von Nana Liu über den anderen Vortrag, von John Hopcroft; ich selbst war in meinem Blogbeitrag über Deep Learning, Ist dieser Text merkwürdig?,  kurz auf die Arbeit von Efros eingegangen, nämlich einen irrtümlich zebra-gestreiften Wladimir Putin).

Alexei Efros bei seinem HLF-Vortrag am Dienstag. © Heidelberg Laureate Forum Foundation / Kreutzer – 2017

Ich schreibe diesen Text, während ich mit einem Ohr, und einer unspezifizierten und bisher unspezifizierbaren Anzahl von Neuronen, Leslie Valiants Vortrag über Informatik und Neurowissenschaften zuhöre. Ähnlich wie bei dem Vortrag von Manuel Blums am Donnerstag, “Can a Machine Be Conscious?”, werde ich aber das Gefühl nicht los, dass die Art und Weise, wie diese beiden Laureaten über das Bewusstsein sprechen, ein wenig – nun ja, altmodisch ist. Da ist die Rede von Teilprozessen, davon, wie das Gehirn verschiedene Algorithmen implementiert, von Random Access-Aufgaben, der Zuweisung von Speicherplatz. Man spricht die Sprache herkömmlicher Computer-Architektur.

Über das Bewusstsein sprechen, ohne über das Bewusstsein zu sprechen

Im Gegensatz dazu hatte ich den Eindruck, dass in den Vorträgen über Deep Learning viel mehr über das Bewusstsein zu erfahren war – auch wenn, soweit ich erinnere, keiner der Vortragenden das Wort in den Mund nahm. Meine Vermutung: Mit den Worten, die in diesen Vorträgen fielen, werden die Informatiker in zehn Jahren oder so über unser Verständnis von Bewusstsein sprechen.

Denn was machen diese Deep-Learning.Netzwerke eigentlich? In einem der (konzeptionell) einfachsten Beispiele für unbeaufsichtigtes Lernen würde ein solches Netzwerk ein Input-Bild erhalten, verbunden mit der Aufgabe, dass die Ausgabe des Netzwerks das Bild so gut wie möglich reproduzieren solle. Der Clou ist dabei, dass das Netzwerk dabei nicht den trivialen Weg geht (und dies je nach Anzahl der Knoten/Neuronen in den Zwischenschichten auch gar nicht kann), jedes Ausgangspixel eins zu eins mit dem entsprechenden Eingangspixel zu verknüpfen. Stattdessen entwickelt das Netzwerk bestimmte Repräsentanten, mit ähnlichen Inhalten wie jenen, die Menschen bei der Beschreibung eines solchen Bildes ansprechen würden. Nehmen wir ein Bild, das repräsentativ für typische Internetinhalte ist:

Gähnende Katze und Bild der gähnenden Katze: C. Liefke

Ein Mensch würde ein solches Bild niemals Pixel für Pixel beschreiben. Höchstwahrscheinlich würden wir die langweiligen weißlichen Pixel in der linken oberen Ecke, die den natürlichen Ausgangspunkt für eine pixelweise Aufzählung bieten, nicht einmal erwähnen. Stattdessen würden wir sagen, dass da eine Katze zu sehen sei, die auf der Seite liege und gähne. Vielleicht würden wir noch weitere Details hinzufügen.

Ein Deep-Learning-Netzwerk entwickelt, ohne dass wir ihm dies explizit vorgeben, Repräsentanten von Katzenformen, Pinguinformen oder Hundeformen oder von Teilen dieser Tiere. Und ein Deep-Learning-Netzwerk, das einen Text von einer Sprache in eine andere übersetzen soll (ich hatte das in Ist dieser Text merkwürdig? beschrieben und nutze deepl.com auch für die deutsche Übersetzung dieses Beitrags), oder das gesprochene Sätze transkribiert, dürfte nicht nur Repräsentanten von Wörtern als Buchstabenfolgen oder von Phonemen entwickeln, sondern auch solche, die Informationen darüber enthalten, wie bestimmte Wörter miteinander verbunden sind, die in bestimmten Kombinationen vorkommen, aber nicht in anderen. Damit wiederum führt an dieser Stelle eigentlich kein Weg an zumindest ein bisschen Inhalt, ein bisschen Semantik vorbei.

Ziel (fast) erreicht?

Für mich hört sich das so an, als hätten wir das Ziel denkender Maschinen von den Grundlagen her fast erreicht. Bei Übersetzungsaufgaben werden ja bereits heute rekurrierende neuronale Netze eingesetzt, also Netze mit Schleifen, die ihren eigenen Output in das Netz zurückleiten.

Andererseits betonte Manuel Blum in seinem Vortrag über das menschliche Bewusstsein die Bedeutung unseres inneren Monologs, die Art und Weise, wie wir in der Abgeschlossenheit unserer eigenen Köpfe ständig mit uns selbst sprechen. In der Literatur ist dieses Phänomen verewigt durch Romane von Dorothy Richardson, James Joyce und anderen, als erzählter Bewusstseinsstrom.

Betrachten wie jetzt ein künstliches Deep-Learning-Netzwerk, das so gebaut wurde, dass es in Echtzeit arbeitet und dabei je nach dargebotener Information bestimmte Repräsentanten aktiviert und wieder deaktiviert. Ist es nicht verlockend, diesen Strom an aktivierten Repräsentanten als eine Art von Denken aufzufassen? Wäre das Netzwerk so ausgelegt, dass es seine Arbeit – z.B. erkannte Motive auf Bildern – als gesprochenen oder geschriebenen Text ausgeben kann, sollten wir sogar in der Lage sein, diese Hypothese zu testen.

Denn ob das System nun gerade spricht/schreibt oder nicht: die internen Repräsentanten, die Wörter bzw. Wortfolgen bestimmen, dürften in jedem Falle mit aktiviert sein. Ein einfaches Beispiel: Ist das System so trainiert, dass es Bilder von Katzen erkennt und uns auf Nachfrage sagt, ob ein bestimmtes Bild eine Katze zeigt oder nicht, dann muss das System die richtige Verbindung zwischen dem Erkennen der Katze und dem Ausdrücken dieser Tatsache in Worten hergestellt haben. Irgendwie müssen die Repräsentanten von Katzenformen und die zur Beschreibung nötigen Wörter verknüpft sein. Die einfachste Lösung wäre es, wenn der bilderkennende Teil des Systems die Wortfolge “Bild einer Katze erkannt!” immer dann anbietet, wenn tatsächlich eine Katze erkannt wurde – unabhängig davon, ob die Umstände gerade danach verlangen, dass diese Wortfolge artikuliert bzw. geschrieben wird. Das System besäße dann ein Analogon zur Wortfolge unseres Bewusstseinsstroms, die fortwährend vor sich hin plätschert und immer einmal wieder “auf laut” geschaltet wird, wenn wir tatsächlich eine Äußerung tätigen wollen. Indem wir die Bewusstseinsstrom-Wortfolge des künstlichen Systems belauschen, sollten wir entscheiden können, ob sie unserem eigenen Bewusstseinsstrom ähnelt oder nicht.

Hype, Gegen-Hype, kein Hype?

Solche oder ähnliche Spekulationen liegen nahe, wenn man sich die jüngsten Fortschritte beim Deep Learning anschaut. Viele Menschen, und unter ihnen auch kluge Köpfe, scheinen sehr gespannt darauf zu sein, wohin uns diese neue Richtung führen könnte. Und wie bei jedem anderen Thema, das überschwängliche Begeisterung erzeugt, gibt es Menschen, und auch unter denen wieder recht kluge, die zur Vorsicht mahnen. Ist Deep Lerning tatsächlich eine Revolution, wie dieser Artikel kritisch fragt? (Dank an Blog-Leser Martin Holzherr für diesen Link.) Sind Deep Learning Netzwerke wirklich so clever? Sind sie klüger, als sie scheinen, und sind wir demzufolge weiter von der Intelligenz entfernt, als die Optimisten glauben?

Angesprochen auf mögliche Querverbindungen zum Bewusstsein sind sowohl John Hopcroft als auch Alexei Efros sehr zurückhaltend. Hopcroft stellt im Gespräch klar, dass die neuronalen Netze, die er mithilfe von Bildern trainiert hat, Formen erkennen, aber erst einmal nicht mehr. Efros interessiert sich offener für die Implikationen des Deep Learning für Bewusstseinsfragen und fände es gut, wenn Philosophen, die das Bewusstsein studieren, einen genaueren Blick auf das Thema werfen würden. Er würde sich aber bei aller Zurückhaltung nicht wundern, wenn das Bewusstsein, oder zumindest etwas, was man von außen als Bewusstsein identifizieren könnte (was, um fair zu sein, nicht mehr und nicht weniger als die Art und Weise ist, wie wir unsere Mitmenschen als bewußt einschätzen), aus einem entsprechend komplexen künstlichen neuronalen Netz als emergente Eigenschaft hervorginge.

Hype oder nicht? Das ist zum jetzigen Zeitpunkt schwer einzuschätzen. Ich für meinen Teil bin recht zuversichtlich, dass wir, sagen wir: beim 15. HLF in zehn Jahren Vorträge über in irgendeiner Form bewusste dynamische Deep-Learning-Netzwerke hören werden.

Avatar photo

Markus Pössel hatte bereits während des Physikstudiums an der Universität Hamburg gemerkt: Die Herausforderung, physikalische Themen so aufzuarbeiten und darzustellen, dass sie auch für Nichtphysiker verständlich werden, war für ihn mindestens ebenso interessant wie die eigentliche Forschungsarbeit. Nach seiner Promotion am Max-Planck-Institut für Gravitationsphysik (Albert-Einstein-Institut) in Potsdam blieb er dem Institut als "Outreach scientist" erhalten, war während des Einsteinjahres 2005 an verschiedenen Ausstellungsprojekten beteiligt und schuf das Webportal Einstein Online. Ende 2007 wechselte er für ein Jahr zum World Science Festival in New York. Seit Anfang 2009 ist er wissenschaftlicher Mitarbeiter am Max-Planck-Institut für Astronomie in Heidelberg, wo er das Haus der Astronomie leitet, ein Zentrum für astronomische Öffentlichkeits- und Bildungsarbeit, seit 2010 zudem Leiter der Öffentlichkeitsarbeit am Max-Planck-Institut für Astronomie und seit 2019 Direktor des am Haus der Astronomie ansässigen Office of Astronomy for Education der Internationalen Astronomischen Union. Jenseits seines "Day jobs" ist Pössel als Wissenschaftsautor sowie wissenschaftsjournalistisch unterwegs: hier auf den SciLogs, als Autor/Koautor mehrerer Bücher und vereinzelter Zeitungsartikel (zuletzt FAZ, Tagesspiegel) sowie mit Beiträgen für die Zeitschrift Sterne und Weltraum.

3 comments

  1. Die Prognose (Zitat) “Ich für meinen Teil bin recht zuversichtlich, dass wir, sagen wir: beim 15. HLF in zehn Jahren Vorträge über in irgendeiner Form bewusste dynamische Deep-Learning-Netzwerke hören werden.” ist nicht abwegig, nur zeigt die Erfahrung, dass die prognostizierte Zeitspanne – hier 10 Jahre – meist weit von der tatsächlich benötigten Zeitspanne entfernt liegt.
    So liest man unter History of artificial intelligence (Zitat, übersetzt von DeepL):

    Das Gebiet der KI-Forschung wurde im Sommer 1956 auf einem Workshop auf dem Campus des Dartmouth College gegründet. Die Teilnehmer würden jahrzehntelang die Leiter der KI-Forschung werden. Viele von ihnen prophezeiten, dass eine Maschine, die so intelligent ist wie ein Mensch, in nicht mehr als einer Generation existieren würde, und ihnen wurden Millionen von Dollar gegeben, um diese Vision wahr werden zu lassen.

    Nun, dieses Ziel ist immer noch nicht erreicht und die meisten der damaligen “Leiter der KI-Forschung” – wie etwa Marvin Minsky – sind inzwischen verstorben. Selbst die Forscher, die die heutige Deep-Learning-Technologie hervorgebracht haben, sagen mehrheitlich, die Konzepte dafür seien bereits in den späten 1980er Jahren bereit gelegen, der Durchbruch aber sei erst ab 2010 eingetreten. Nicht zuletzt weil die Hardware sehr viel leistungsfähiger wurde. Erst mit der Verwendung von GPUs (wie die von NVIDIA ) wurden überhaupt akzeptable Laufzeiten erreicht.

  2. Der wahre Grund für die Verspätung ist der menschliche Mangel an Vorstellungsvermögen. Sidney Lamb (stratificational grammar, neurocogntive linguistics) hat die Antworten schon vor Jahrzehnten geliefert. Kaum jemand hat es begriffen. !

Leave a Reply


E-Mail-Benachrichtigung bei weiteren Kommentaren.
-- Auch möglich: Abo ohne Kommentar. +