Können Hirnforscher bald Träume entschlüsseln?

BLOG: MENSCHEN-BILDER

Mensch, Gesellschaft und Wissenschaft
MENSCHEN-BILDER


Eine neue Studie zum „Gedankenlesen“ geht durch die Medien. Durch Messungen im Kernspintomographen konnten gesehene Videos rekonstruiert werden. Was bedeuten die Ergebnisse wirklich?

Eigentlich bin ich gerade im Urlaub. Betonung auf „eigentlich“. Anstatt bloß das schöne Wetter und die schöne Stadt Budapest zu genießen, sitze ich viel im Hotels und in Cafés, habe ich die Abgabe eines Aufsatzes verschoben, einen zweiten mit ein paar Aktualisierungen aus älterem Material zusammengestellt (das war ausdrücklich erlaubt!) und einen dritten – nun ja, ich weiß es noch nicht. Dann erreichte mich per E-Mail eine Einladung zum Interview mit einem Programm, in dem bereits Egon Bahr, Wolfgang Schäuble, Dirk Müller, Frank Elstner, Rudi Völler, Günter Netzer, Gaby Köster u.v.a. Gäste gewesen seien. Davon abgesehen, dass mir nur drei der Namen etwas sagen, gehört Neinsagen nicht gerade zu meinen Stärken.

Also saß ich gestern und heute wieder im Hotel, nachdem ich mir die Originalarbeit von Shinji Nishimoto und Kollegen aus dem Labor von Jack Gallant an der University of California in Berkeley heruntergeladen habe: Reconstructing Visual Experiences from Brain Activity Evoked by Natural Movies (deutsch: Visuelle Erfahrungen durch Gehirnaktivierung, die von natürlichen Filmen hervorgerufen wurde, rekonstruieren). Bevor ich mich im Interview dazu äußere, wollte ich wenigstens die Originalarbeit gelesen und so gut wie möglich verstanden haben. Aus Presseberichten (Weiterer Erfolg im "Gedankenlesen"; Scientists use brain imaging to reveal the movies in our mind) wusste ich schon, dass es hier um die angebliche Rekonstruktion gesehener Filme aus Gehirndaten geht.

Rekonstruktion von Gehirndaten

Als Hintergrundinformation sollte man wissen, dass schon bei einem „Gedankenlese-Wettbewerb“ im Jahr 2006 versucht wurde, den Inhalt gesehener Filme durch Aufnahmen im Kernspintomographen zu rekonstruieren (Gedankenlesen mit dem Hirnscanner). Damals wählte man jedoch den Umweg über Bewertungen der Versuchspersonen, was sie in den Filmen gesehen hatten und was in den Szenen passiert war. Ein Jahr später gab es einen neuen Wettbewerb, bei dem es um Rückschlüsse auf die Geschehnisse in einem 3D-Computerspiel ging, das die Probanden im Hirnscanner spielen mussten (Gedankenlesen). Außerdem ist der Studienleiter der neuen Untersuchung, Jack Gallant, kein Unbekannter in der Szene. Erst 2009 kam er mit einem Mitarbeiter in die Schlagzeilen, weil sie im Gehirnscanner gesehene Bilder rekonstruieren konnten (Der nächste Schritt zur Gedankenlesemaschine?).

Dabei ist eine besondere Eigenart der Forschung von Gallant und Kollegen hervorzuheben: Während andere Gruppen unter dem Stichwort „Gedankenlesen“ vor allem mächtige Algorithmen des Maschinenlernens die Arbeit erledigen lassen, versuchen die in Berkeley ansässigen Forscher, Wissen über die Funktionsweise des Gehirns in ein theoretisches Modell der Informationsverarbeitung einfließen zu lassen. Dafür ist zentral, dass visuelle Signale retinotop verarbeitet werden, das heißt, dass es zwischen dem gesehenen Bild und seiner Verarbeitung im Gehirn bestimmte Strukturähnlichkeiten gibt. Insbesondere werden räumliche Relationen aufrecht erhalten. Das heißt zwar nicht, dass sich das Gesehene irgendwo im Kopf als direkte Kopie finden lässt, aber beispielsweise benachbarte Stellen des Bilds auch an benachbarten Stellen des Gehirns verarbeitet werden.

Aus Tierforschung und Verhaltensuntersuchungen weiß man ferner, dass sowohl Zellen auf der Retina als auch im Gehirn über bestimmte rezeptive Felder verfügen, also auf einen bestimmten Bereich des Gesichtsfelds fokussiert und dabei auf bestimmte Eigenschaften, wie Bewegung, Helligkeit oder Farbe spezialisiert sind. Dieses Wissen haben die Forscher nun in ein Modell einfließen lassen, um damit die Verarbeitung von Filmen im Gehirn näher zu untersuchen.

Was im Experiment geschah

Drei der an der Studie beteiligten Forscher haben sich sage und schreibe jeweils dreieinhalb Stunden lang in die schmale Röhre des Kernspintomographen begeben – nichts für Klaustrophobe und aufgrund der außergewöhnlich langen Dauer hat man dafür wohl auch keine externen Versuchspersonen verwendet. Zwei Stunden lang mussten sie sich dabei eine Zusammenstellung aus Filmen ansehen, die von Internetplattformen heruntergeladen und für das Experiment vorverarbeitet worden waren. Anhand dieser Daten sollte das Modell darauf trainiert werden, an welchen Orten im visuellen Kortex Eigenschaften der Bewegung und Helligkeit der Filme verarbeitet werden. Der Gehirnbereich wird dabei aus mehreren zehntausend dreidimensionalen Bildpunkten, Voxel genannt, zusammengesetzt, die im Fall dieser Studie jeweils ein Volumen von zehn Kubikmillimetern besaßen. Für jedes der Voxel war danach bekannt, wie es auf Veränderungen der Helligkeit oder Bewegungen in den Filmen reagiert.

Zusätzlich zu dem zweistündigen Trainingsmaterial sahen die Versuchspersonen noch für eineinhalb Stunden neues Videomaterial, das für den späteren Test verwendet wurde. Dieser Test wurde nach der Aufzeichnung der Messdaten und jeder Menge Rechen- und Programmierarbeit am Computer dann in zwei Phasen durchgeführt: Bei der ersten Phase ging es darum, zu bestimmen, welchen der gezeigten Filme die Versuchspersonen zu einem bestimmten Zeitpunkt gesehen haben. Dafür wurden die Testvideos in das durch das Training aufgebaute Modell gefüttert, das daraufhin eine Schätzung der zu erwartenden Gehirnaktivierung für einzelne Videoclips lieferte. Diese Schätzungen wurden mit dem tatsächlich gemessenen Signal verglichen und die am besten damit übereinstimmende Schätzung wurde ausgewählt. Damit konnte in 95% der Fälle der zu einem Zeitpunkt gesehene Videoclip korrekt identifiziert werden.

Der zumindest für die Medien viel einschlägigere Befund ergibt sich aber durch die zweite Testphase, in der es um die Rekonstruktion der gesehenen Filme ging. Hierfür haben die Forscher ganze 5000 Stunden Videomaterial aus dem Internet heruntergeladen und damit ein statistisches Modell aufgebaut. Ähnlich der ersten Phase wurden auch hier wieder Schätzungen für die zu erwartende Gehirnaktivierung berechnet. Anstatt nur des besten Treffers, wurden jetzt aber die hundert wahrscheinlichsten Videoclips übereinandergelegt, um damit den tatsächlich gesehenen Film zu rekonstruieren. In den Worten der Forscher:

…wir bieten die ersten Rekonstruktionen natürlicher Filme aus menschlicher Gehirnaktivierung. Dies ist ein wichtiger Schritt zur Schöpfung von Gehirnlesegeräten, die dynamische Wahrnehmungserfahrungen rekonstruieren können. (Nishimoto und Kollegen, 2011, S. 4; meine Übersetzung)

Was bedeutet das nun?

Denken wir darüber einen Moment nach. Die rekonstruierten Filme (siehe YouTube-Video) beruhen auf, erstens, der tatsächlich gemessenen Gehirnaktivierung (zu der der passende Videoclip gesucht wird), zweitens, den statistischen Rechenergebnissen, die das Modell für die 5000 Stunden Videoclips liefert, und einer Mittlung aus hundert Videoclips, deren vom Modell vorhergesagter Wert am besten zur Messung passt.

Zur Rekonstruktion der gesehen Filme werden also gar nicht die dafür aufgezeichneten Gehirndaten verwendet. Im Modell steckt schließlich nur die Information aus den zweistündigen Trainingsmessungen, das heißt, Informationen über Helligkeits- und Bewegungsreaktionen für jedes Voxel. Daraus lässt sich gar kein Video herstellen, sondern man muss sich darunter eher einen abstrakten Zahlenraum vorstellen. Die Bildrekonstruktion geschieht durch die Auswahl der Videoclips, deren geschätzte Helligkeits- und Bewegungsreaktionen laut Modell am besten mit der tatsächlichen Messung übereinstimmen.

Dass dieser Unterschied wichtig ist, lässt sich durch folgenden Gedanken verdeutlichen: Nehmen wir an, die Forscher hätten anstelle der 5000 Stunden zufälligen Bildmaterials der Internetplattformen nur Tierfilme, Luftaufnahmen oder nur Pornofilme ausgewählt. Im ersten Fall würde die Rekonstruktion eine Mischung aus den hundert am besten passenden Tierszenen ergeben; im zweiten hätten wir es mit einer Überlagerung von Aufnahmen der Erdoberfläche, Städten, Bergen, Wäldern und Feldern, zu tun; im dritten einen vielleicht entfernt an eine Sexszene erinnernden Mischmasch.

Schon bei den konkreten Beispielen der Forscher wird das deutlich. Da ist im Originalvideo etwa ein Elefant zu sehen, der durch eine Wüste läuft. Die Wüste ist beigefarben und braun, der Himmel vielleicht etwas mehr gelblich-orange. In der Rekonstruktion sehen wir einen blauen Himmel und einen grünen Boden; an der Stelle des Elefanten ist ein schwarzes Etwas, das eine Hand, ein Vogelschwarm oder ein Ölteppich sein könnte. Hätten sich in dem Grundmaterial mehr Wüstenaufnahmen und mehr Elefanten befunden, dann würde die Rekonstruktion wahrscheinlich viel besser mit dem Original übereinstimmen.

Ist dieser Unterschied bedeutend? Ich finde ja, vor allem, da die Forscher in ihrer Arbeit schon über zukünftige Anwendungen ihrer Experimente spekulieren, nämlich der „unfreiwilligen Entschlüsselung subjektiver geistiger Zustände (zum Beispiel von Träumen oder Halluzinationen), auch wenn es schwer wäre, zu entscheiden, ob der entschlüsselte Inhalt zutreffend ist“ (S. 5; meine Übersetzung). Die Redeweise von der Rekonstruktion der Videos aus den Gehirndaten suggeriert, dass hier wirklich zuvor Unbekanntes sichtbar gemacht werden kann; meine Analyse kommt im Gegenteil zu dem Ergebnis, dass die Rekonstruktion entscheidend davon abhängt, was man alles in das Modell hereinsteckt. Anstatt unsere Träume für alle sichtbar zu machen, müsste also das verwendete Videomaterial nach der von Gallant und Kollegen verwendeten Methode bereits den Träumen zumindest ähnliche Szenen enthalten. Ob damit größere Erfolge zu erwarten sind, als wenn beispielsweise Menschen ihre Traumbilder malen, ist damit eine offene Frage.

Literatur:
Nishimoto, S., Vu, A. T., Naselaris, T., Benjamini, Y., Yu, B. & Gallant, J. (2011). Reconstructing Visual Experiences from Brain Activity Evoked by Natural Movies. Current Biology 21: vorab im Internet veröffentlicht.
Schleim, S. (2008). Gedankenlesen. Pionierarbeit der Hirnforschung. Hannover: Heise Verlag.

Foto: Gallant Lab.

Avatar-Foto

Die Diskussionen hier sind frei und werden grundsätzlich nicht moderiert. Gehen Sie respektvoll miteinander um, orientieren Sie sich am Thema der Blogbeiträge und vermeiden Sie Wiederholungen oder Monologe. Bei Zuwiderhandlung können Kommentare gekürzt, gelöscht und/oder die Diskussion gesperrt werden. Nähere Details finden Sie in "Über das Blog". Stephan Schleim ist studierter Philosoph und promovierter Kognitionswissenschaftler. Seit 2009 ist er an der Universität Groningen in den Niederlanden tätig, zurzeit als Assoziierter Professor für Theorie und Geschichte der Psychologie.

45 Kommentare

  1. Danke

    Wegen solcher Artikel les ich die brainlogs. Habe zu dem Thema mehrere, auch engl. news und blogspost gelesen aber so richtig hinterfragt wie hier wurden Ergebnisse nicht.

    Das die Wüste oben blau und unten grün ist erschien mir als ich die Ergebnisse sah auch “etwas” suboptimal und widersprüchlich, an fehlender Voxel-Auflösung kann das wohl nicht liegen, sondern der Imperfektion des Modells.

    Was ich mich noch frage, villeicht wissen sie eine Antwort oder ein Leser:
    Welche phyisologischen/elektrischen Gehirnprozesse die mit fMRi gemessen werden korrelieren mit den Farben. Es sind doch keine Falschfarben (d.h. im Grunde misst man nur Helligkeitsunterschiede und über Bildbearbeitung teilt man dann randomisiert Farben hinzu). Würde man das gleiche Bild nochmal zeigen, wäre es wieder blau/grün?

    btw: etwas OT aber die Retinotopität ist doch auch wieder eine sehr plausible Stütze für die Evo. Erkenntnistheorie? Ohne grosses Hirn ist die räumliche Auflösung wohl limitiert, afaik haben Insekten ja eine geringere vis. Auflösung und sehen schwarz/weiss (Bisschen Kritik muss ja sein 😉 )

  2. Blub, blub, blob

    Farbe ist nicht mein Fachgebiet, aber diese wird in vielen, verteilten Blob genannten Bereichen der Sehrinde von spezialisierten Zellen detektiert. Diese spezialisierten Detektoren liegen zwischen ihren Kollegen, den Kantendetektoren, von denen es einer Windrädchen-Anordnung (pinwheels) ähnlich auch immer einen vollständigen Satz gibt. (Zu den pinwheels kommt nächste Woche ein eigener Beitrag bei mir.)

    So können nun Farbübergänge an wie immer orientierten Kanten über all im Gesichtsfeld (Stichwort: Retinotopie) detektiert werden.

    Stephan hat diese Arbeit ja schon zurecht deutlich kritisch bewertet. Ich würde sogar dies selbst in Frage stellen:

    Aus Tierforschung und Verhaltensuntersuchungen weiß man ferner, dass sowohl Zellen auf der Retina als auch im Gehirn über bestimmte rezeptive Felder verfügen, also auf einen bestimmten Bereich des Gesichtsfelds fokussiert und dabei auf bestimmte Eigenschaften, wie Bewegung, Helligkeit oder Farbe spezialisiert sind. Dieses Wissen haben die Forscher nun in ein Modell einfließen lassen, um damit die Verarbeitung von Filmen im Gehirn näher zu untersuchen.

    Um nur mal ein fundamentales Problem zu schildern, die die Wissenschaftler hätten, würden sie direkt aus den neuronalen Daten die Filme rekonstruieren: Man nehme mal einen Roten Punkt (japanische Flagge). Wir “sehen” im Kreis rot. Neurone tun dies nicht. Sie sehen nur beim Übergang weiß zu rot, an dieser Kante den Farbwechsel. Damit müsste man also nun nicht einfach “pixelbasiert”, d.h. Ort für Ort, das Bild rekonstruieren, sondern auch gucken, ob Kanten geschlossene Bereiche bilden, die dann, der Konsistenz wegen, vollständig z.B. rot innen sind. Sonst nicht.

    Insofern fürchte ich, dass in dieses Modell wirklich kein a priori Wissen über corticale Organisation einfloss sondern einzig und allein — wie Stephan gut beschreibt, vor allem die Grenzen solch eines Ansatzes– ein Abgleich statt fand. Ich habe aber den Algorithmus mir nicht genau angeguckt.

  3. @ Ruttor: Gute Fragen

    Danke für das Kompliment. Der Punkt mit den Farben, auf den Sie anspielen, ist faszinierend. Die Autoren schreiben dazu:

    In preliminary work for this study, we explored several encoding models that incorporated color information explicitly. However, we found that color information did not improve the accuracy of predictions or identification beyond what could be achieved with models that include only luminance information. (p. 5)

    Darüber bin ich schon beim ersten Lesen gestolpert, da Farbe in Filmen doch eine recht zentrale Rolle spielt (sonst könnten wir alle nach wie vor Schwarzweißfilme schauen). Natürlich haben sie über die Helligkeit ein paar Farbübergänge/Kanten dabei, auf die hier auch Markus anspielt, z.B. bei Menschen mit hellem Gesicht und dunklem Haar.

    Man muss sich darüber im Klaren sein, dass der Ansatz der Forscher, beispielsweise die Ideen mit den rezeptiven Feldern zu verwenden, recht schlau ist, wir es hier aber immer noch mit einem sehr grobkörnigen Signal zu tun haben, der mit der fMRT gemessenen BOLD-Reaktion (siehe dazu mein Post Hirnarbeit).

    Die Forscher hier haben schon eine bessere Auflösung verwendet als im Durchschnitt (10 statt 27 Kubikmillimeter), denn schließlich brauchten sie nur einen Teil des Gehirns zu messen (v.a. den okzipitalen Kortex mit den primären visuellen Arealen) und konnten dafür mit weniger und dünneren Schichten arbeiten.

    Zehn Kubikmillimeter Kortexgewebe enthalten aber immer noch 200.000 bis 1.000.000 Neuronen, von denen dann pro Sekunde ein Durchschnittswert aufgezeichnet wird. Da sollte man von dem Modell auch nicht zu viel Genauigkeit erwarten und ich denke, die Forscher haben hier schon das Maximum an Information herausgeholt.

    Ob bloß eine Erhöhung der räumlichen/zeitlichen Auflösung das Problem lösen wird, darf bezweifelt werden. Das BOLD-Signal ist eben neurobiologisch gesehen nur eine Korrelation mit der Zellaktivierung, die sich elektrisch um mehrere Dimensionen genauer messen ließe.

  4. P.S. Quellen

    Mit Klassifikationssystemen konnten Haynes & Rees übrigens anhand eines bistabilen Stimulus, der rot oder blau wahrgenommen werden konnte, mit ziemlich hoher Wahrscheinlichkeit bestimmen, welche der beiden Möglichkeiten eine Versuchspersonen zu einem Zeitpunkt gesehen hat (mehr dazu in meinem Buch “Gedankenlesen”):

    Haynes, J.-D. & Rees, G. (2005). Predicting the Stream of Consciousness from Activity in Human Visual Cortex. Current Biology 15: 1301-1307.

    Zur Frage, ob sich ein gesehenes Bild aus der Hirnaktivierung rekonstruieren lässt, siehe:

    Miyawaki, Y. et al. (2008). Visual Image Reconstruction from Human Brain Activity using a Combination of Multiscale Local Image Decoders. Neuron 60: 915-929.

    Dabei ging es allerdings um Bilder mit einer Auflösung von 10×10 Pixeln, die schwarz oder weiß sein konnten (immerhin 2^100 Zustände), während Gallant und seine Forscher hier mit Videos von 512×512 in vielen Farben gearbeitet haben.

  5. Zitat:

    Die Bildrekonstruktion geschieht durch die Auswahl der Videoclips, deren geschätzte Helligkeits- und Bewegungsreaktionen laut Modell am besten mit der tatsächlichen Messung übereinstimmen.

    Dass dieser Unterschied wichtig ist, lässt sich durch folgenden Gedanken verdeutlichen: …

    Die Autoren sagen selbst, dass die Rekonstruktionen des Gesehenen dann gut sind, wenn die Videoclip-Bibliothek viele Filme enthält, die dem Gesehenen ähneln, und eben schlecht, wenn das nicht der Fall ist.

    Hier sind noch mehr Beispiele zu sehen, die genau das zeigen:

    http://www.youtube.com/watch?v=KMA23JJ1M1o&feature=player_embedded

    Ich finde, diese Rekonstruktionen haben einen ganz eigentümlichen Reiz. Sie wirken so schön geisterhaft.

    Insgesamt eine beeindruckende Arbeit, die Jack Gallant und sein Team da abgeliefert haben.

  6. @ Markus: farbige Gehirne

    Ja, natürlich gibt es keine grünen und roten Neuronen, das ist ein Beispiel, das wir gerne auch bei Philosophiestudierenden bringen. 🙂

    Ich weiß nicht genug über die Farbverarbeitung im Gehirn aber ich würde vermuten, dass Farbe und Kanten auf einer grundlegenden Verarbeitungsebene getrennte Modalitäten sind und erst auf höheren Stufen zu Objekten (z.B. dem roten Kreis) zusammengefügt werden.

    [Ich treffe in ein paar Wochen einen alten Kollegen, bei dem ich damals in Frankfurt am MPI für Hirnforschung ein Praktikum gemacht habe und der sich mit dem visuellen System gut auskennt. Vielleicht kann ich ihn zu einem Gastbeitrag überreden.]

    Meiner Erinnerung nach spekulieren Haynes und Rees in ihrem NRN-Review über diese Frage und interpretieren ihre Befunde so, dass Farbe vielleicht in ähnlich kolumnarer Weise verarbeitet wird, wie andere visuelle Eigenschaften. Ich glaube aber, dass sie damals auch von anderen Hirnforschern kritisiert wurden, die den visuellen Kortex bsp. an Affen viel feiner untersuchen können und diesen Schluss für sehr spekulativ hielten.

    Haynes, J.-D. & Rees, G. (2008). Decoding mental states from brain activity in humans. Nature Reviews Neuroscience 7: 523-534.

  7. Nachtrag @Stephan Schleim

    Schön, dass Du trotz Urlaub über diese Arbeit gepostet hast. Erhol’ Dich gut… 🙂 )

  8. @ Balanus

    Wo behaupten die Forscher das denn?

    Ja, ich finde die Arbeit auch erstaunlich, nur die Sache mit der Rekonstruktion finde ich eben zu weit gegriffen. Vielleicht dachten sie, nach der Miyawaki et al.-Arbeit in Neuron müssten sie so etwas behaupten, um den Neuheitswert der Studie zu unterstreichen?

    Würdest du mir denn (ausnahmsweise einmal) zustimmen oder siehst du das anders, dass “Rekonstruktion” nicht der richtige Begriff ist?

  9. @ Balanus

    Danke, tatsächlich dachte ich mir, dass es mir für die Vorbereitung des Interviews hilft, über das Experiment zu schreiben – denn wenn ich hier anderen erklären kann, was passiert ist, dann kann ich es im Gespräch wohl auch besser.

  10. @Stephan Schleim

    »Wo behaupten die Forscher das denn? «

    Auf Seite 2, zweite Spalte unten :

    “When the sampled natural movie prior contained
    clips similar to the viewed clip, the MAP reconstructions
    were good (e.g., the close-up of a human speaker shown in Figure
    4A). However, when the prior contained no clips similar to
    the viewed clip, the reconstructions are poor (e.g., Figure 4B).”

    Ob “Reconstruction” der richtige Begriff ist, fragst Du. Also, als Reviewer hätte ich den Begriff sicherlich nicht bemängelt. Ich muss aber noch mal drüber nachdenken, wie ich das argumentativ in trockene Tücher bringe 😉

  11. @ Balanus

    Okay, Punkt für dich. Wenn du aber den gesamten Absatz liest, dann siehst du, dass die Forscher das auf den Zwischenschritt beziehen, aus der Datenbank nur den besten Treffer auszuwählen – wieso sie dann noch stets von einer “Rekonstruktion” sprechen, anstatt bescheidener von einem “pattern matching”, ist mir ein Rätsel.

    In den folgenden Sätzen argumentieren die Forscher ja gerade, dass sie die “Rekonstruktion” verbessern können, indem sie über die hundert besten Treffer mitteln. Damit ist meine Kritik also nicht vom Tisch, denn ich beziehe mich ja explizit auf die gemittelte “Rekonstruktion” (den Elefanten, der zum Ölfleck wird, der Wüste, aus der eine grüne Landschaft unter blauem Himmel wird).

    Viel Spaß beim Nachdenken.

  12. @Stephan:

    »Du darfst mir auch einfach ‘mal Recht geben und musst nicht immer nur nach Argumenten suchen, um mir zu widersprechen. 😉 «

    Da hast Du vollkommen Recht!

    Dennoch: Die Forscher versuchen, das vom Probanden Gesehene sichtbar zu machen. Da sie aber das nicht direkt aufzeichnen können, müssen sie versuchen, die Bilder aus den vorhandenen Daten zu “konstruieren”, etwa durch “pattern matching”. Das Ganze kann man dann “reconstruction by pattern matching” nennen, why not?

  13. Data-Mining ?

    John-Dylan Haynes, der ja hier um die Ecke sitzt, ist sicher eher für das prinzipielle “Decoding mental states from brain activity” zuständig, was Farbe betrifft, sollte man mal bei Karl R. Gegenfurtner nach gucken. Ich setzte mal einfach die Links.

    Was mich interessiert ist, was wirklich in die Berechnung mit einfließt.

    In meinem Beitrag “Migräne Ctrl-Alt-Del” zitiere ich Steven Schiff zum Thema Vorhersagen:

    In beiden Fällen war ein Computermodell, das unsere a priori Wissen über das jeweilige System verkörpert, der Schlüssel zum Erfolg.

    Steves Aussage gilt nicht nur für Parkinson (oder Migräne) sondern eben auch für “mental states” und deren Vorhersage. Den Ansatz mit Kalman-Filter kann man eben NUR mit a priori Wissen machen. Das haben wir auch in Form von cortical feature maps, aber ob dies wirklich einfließt, ist mir gar nicht klar.

    Ich denke, hier wird genau das eben nicht gemacht, sondern letztlich geschicktes Data-Mining. Das ist ja auch schwer, aber funktioniert letztlich ganz ohne Wissen über das Gehirn. Vielleicht funktioniert das sogar sogar besser als mit Wissen …

  14. @ Balanus: Rekonstruktion von was?

    Okay, wir müssen aufpassen, dass wir das hier nicht verkürzen. Ich bestreite nicht, dass die Forscher irgendetwas rekonstruieren – die Mittlung aus 100 Filmen kann man wahrscheinlich schon als eine Form der Rekonstruktion durchgehen lassen.

    Der Punkt ist doch, ob sie das aus der Gehirnaktivierung rekonstruieren, wie so oft behauptet wird und schon der Kernaspekt im Titel des Papers ist!

    In diesem Sinne schließe ich mich Markus an, der das Data Mining nennt – Data Mining in einer Filmdatenbank, wohlgemerkt, und nicht in den Gehirndaten.

  15. Haben die echt vorhergesagt, was jemand demnächst sehen wird, oder handelt es sich nur um eine synchrone Klassifikation?

  16. Vorhersage=Synchronization+Modell

    Das mit der “Vorhersage” habe ich in die Diskussion gebracht. Ohne zu merken, dass hier was nicht gleich offensichtlich ist.

    Jetzt muss ich vorsichtig sein, es wird kompliziert. In dem Artikel von Steve, den ich schon oben zitiert habe, schreibt er weiter: “All control filter … are at their essence synchronization problem” und beruft sich auf dort auf den Artikel von Duane et al. Synchronicity in predictive modelling: a new view of data assimilation und auf den von Yang Data Assimilation as Synchronization of Truth and Model: Experiments with the Three-Variable Lorenz Sysytem. Keinen davon hab ich gelesen. Ich denke aber, es ist klar was gemeint ist.

    Sehr klar formuliert im ersten Satz des Artikels von Duane:

    The problem of data assimilation can be viewed as one of synchronizing two dynamical systems, one representing “truth” and the other representing “model”, with a unidirectional flow of information between the two.

    Data-Assimilation und Data-Mining sind nicht das selbe, aber ich kenne mich da nicht sehr gut aus.

    Ich fürchte sowieso, das führt jetzt zu weit, oder?

  17. PS

    Wir arbeiten uns durch diese Thematik gerade selber erst durch für ein Forschungsprojekt. Die obigen Artikel liegen für meinen Journal Club bereit und oft schreibe ich die wesentlichen Ideen aus diesem Journal Club kondensiert dann in meinem Blog.

    Vom eigentlichen Journal Club zum Blogbeitrag vergeht aber schon oft viel Zeit.

  18. @Schleim, Dahlem

    Hier wird die math. Seite noch etwas erläutert und es scheint im wesenltichen geschicktes Data-Mining zu sein:

    The idea is to train an encoding model using fMRI responses during natural movies. Then the goal is to decode what natural movies were presented to an observer based on a second set of fMRI responses (see movie above). Importantly, the second set of fMRI responses was not used during training. Furthermore, there is no overlap between the presented stimuli in the training and decoding sets. This is a pretty tough test of the ability of the encoding/decoding models to extrapolate.

    So wie ich es verstehe, heisst das, würde man nur Videos nehmen, wo oben nur blau und unten nur grün auftaucht (d.h. blau tritt nie in einem best. Bildbereich auf), würde das bei der “Rekonstruktion” auch immer wieder so dargestellt, die Wahrscheinlichkeit ist dann nahezu 0 in diesem Bildbereich eine blaue Rekonstruktion zu bekommen. Mehr als Farbkanten, Helligkeitsverläufe liefert das Modell nicht, es sind randomisierte Falschfarben. Ein Bild, Bewegung bei der Elefant an einer anderen Stelle des Bildes ist führt evtl. dazu, dass im Bild oben blau und grün die Plätze tauschen, weil es statistisch mit den Farbverläufen in den benutzen Videos korreliert. Die Auflösungssteigerung wird wohl prinzipiell keine Verbesserung hier bringen.

    Bei mir als Laien auf dem Gebiet hat es eben den Eindruck erweckt, als wäre das Qualia-Problem mal im Vorbeigehen gelöst worden. Aber das ist wohl eher eine technische Arbeit/Journal gewesen, so dass die Frage hier gar keine Rolle spielt, sondern es allein um techn. Machbarkeit geht. Das ist ja auch schon recht beindruckend.

  19. Ersatz für fehlende Vorschaufunktion

    Da diese LifeType Software keine Vorschau ausgibt (nicht mal für die Autoren mit Admin Rechten???), kann ich Markdown-Editor empfehlen.

    z.B. Gonzo oder Pandoc oder mercury. Bei mercury auf “Test it out” drücken, dann das blaue Feld darunter und eig. Text eingeben, in der Symbolleiste ganz oben rechts auf das Tag Symbol neben dem Kreuz und man bekommt das zugehörige HTML ausgespuckt. Für unterwegs auf Smartphone mit HTML5 fähigen Browser ist Mercury gut, auf windows nutze ich Gonzo mit der Echtzeit-Vorschau

    Wikipedia gibt eine Einführung. Statt html tags nutzt man markdown Befehle die dann in html, LaTeX, etc. übersetzt werden, dann Copy und Paste in den Life Type Comment.

  20. @Stephan:

    » Der Punkt ist doch, ob sie das aus der Gehirnaktivierung rekonstruieren, wie so oft behauptet wird und schon der Kernaspekt im Titel des Papers ist! «

    Ich weiß jetzt nicht, was oft behauptet wird. Auf das Paper wurde ich durch den Beitrag von Nils Cordes auf ScienceBlogs aufmerksam, ansonsten habe ich nichts darüber gelesen.

    Und ja, den Titel (Rekonstruieren von visuellen Eindrücken aus der Hirnaktivität, hervorgerufen durch natürliche Filme) könnte man vielleicht so lesen, als würden Hirndaten direkt umgerechnet in Bilddaten. Ist meines Erachtens aber nicht zwingend. Und natürlich spielen die Hirndaten die entscheidende Rolle bei der Rekonstruktion. Sonst gäbe es ja keine Ähnlichkeit zwischen der Vorlage und dem Konstrukt.

    » In diesem Sinne schließe ich mich Markus an, der das Data Mining nennt – Data Mining in einer Filmdatenbank, wohlgemerkt, und nicht in den Gehirndaten. «

    Klar, die Daten für die Rekonstruktion stammen aus der Filmdatenbank, woher denn sonst? Es wurden die Daten bzw. Bilder gesucht, die am besten zu den individuell gemessenen Mustern der Hirnaktivitäten (bzw. BOLD-Signalen) passen. Natürlich können dazu nur externe Daten verwendet werden, die im Gehirn gespeicherten Daten, die intern zur Generierung von Bildern aus visuellen Mustern herangezogen werden, sind ja nicht zugänglich (grob gesprochen).

    Aber zugegeben, noch viel sensationeller wären die Ergebnisse dann gewesen, wenn man diese Bilder alleine aus den BOLD-Signalen hätte errechnen können. Wäre so etwas technisch überhaupt machbar?

  21. @ Manni: Vorhersagen, Nachhersagen

    Das mit dem Vorhersagen würde ich besser schnell wieder vergessen, damit wird oft ein Verwirrspiel gespielt. In dieser Studie wurde auch eher nachher- als vorhergesagt.

    Oder wie ein Hirnforscher, dessen Arbeit ich kritisierte, zu mir einmal am Telefon sagte: “Prediktschn, das ist eben ein weiter Begriff.”

    (Das hätte fast von Theodor Fontane sein können.)

  22. @ Ruttor

    Hmm, ich denke, dass es bei diesem Aspekt eher um die übliche Vorgehensweise geht, dass man Trainings- und Testläufe voneinander trennt.

    Man kann ein Modell auch “overfitten”, dann kann es zwar die bereits bekannten Daten hervorragend klassifizieren, versagt aber bei der Klassifikation neuer Fälle.

    Zur Beurteilung der neuen Fälle verwendet man dann logischerweise Datensätze, die nicht bereits beim Training vorhanden waren, dessen richtige Lösungen das Modell also bereits “kennt”.

  23. @ Selection Bias Banalus

    Und natürlich spielen die Hirndaten die entscheidende Rolle bei der Rekonstruktion. Sonst gäbe es ja keine Ähnlichkeit zwischen der Vorlage und dem Konstrukt.

    Hast du meinen Beitrag schon wieder vergessen? Wenn in der Datenbank nur anderes Filmmaterial ist, dann gibt es auch keine Ähnlichkeit. Demzufolge spielt also das Filmmaterial die entscheidende Rolle (deine Sprachlogik).

    Klar, die Daten für die Rekonstruktion stammen aus der Filmdatenbank, woher denn sonst?

    Du sagst es doch selbst: Vielleicht aus dem BOLD-Signal. Das wäre dann wirklich eine Reaktion aus den Hirndaten.

    In diesem Zusammenhang sie noch einmal auf die Neuron-Arbeit aus Kamitanis Labor verwiesen:

    Miyawaki, Y. et al. (2008). Visual Image Reconstruction from Human Brain Activity using a Combination of Multiscale Local Image Decoders. Neuron 60: 915-929.

  24. @ Stephan Schleim /Selection Bias

    » Hast du meinen Beitrag schon wieder vergessen? Wenn in der Datenbank nur anderes Filmmaterial ist, dann gibt es auch keine Ähnlichkeit. Demzufolge spielt also das Filmmaterial die entscheidende Rolle (deine Sprachlogik). «

    Das sagen die Autoren doch auch, dass das vorhandene Filmmaterial über die Güte der Rekonstruktion entscheidet. Aber ohne eine Vorlage, also ohne das gemessene BOLD- bzw. Voxel-Muster, gäbe es überhaupt nichts zu rekonstruieren.

    Ob man sich dabei einer Filmdatenbank bedient oder ein anderes Verfahren anwendet (wie in der von Dir genannten Neuron-Arbeit, Miyawaki, Y. et al.), erscheint mir sekundär. Das eine mag eleganter oder anspruchsvoller sein als das andere, aber am Ende zählt doch nur das Ergebnis, also wie gut die Rekonstruktion gelungen ist.

    (Es fällt Dir wohl sehr schwer, meinen Namen _nicht_ zu banalisieren, was? 🙂 )

  25. Banalisierung der Begriffe

    Das hatten wir doch schon mehrmals: Du gibst mir in der Sache Recht, verweigerst dich aber meiner Schlussfolgerung.

    Es geht doch gar nicht allein um die Rekonstruktion, sondern um die Rekonstruktion aus Hirndaten. Das behaupten die Forscher, obwohl sie das Video nicht aus den Hirndaten rekonstruieren, sondern aus der Filmdatenbank, und dabei die vom Modell berechneten Daten mit dem gemessenen Zielwert vergleichen.

    Willst du nicht ‘mal einen Philosophiekurs belegen? Ich kann diese Aufklärungsarbeit für dich hier im Blog nicht leisten.

  26. @Stephan Schleim

    Willst du nicht ‘mal einen Philosophiekurs belegen? Ich kann diese Aufklärungsarbeit für dich hier im Blog nicht leisten.

    Die Frage ist, ob Du diese Aufklärungsarbeit überhaupt leisten könntest… 😉

    » Es geht doch gar nicht allein um die Rekonstruktion, sondern um die Rekonstruktion aus Hirndaten. Das behaupten die Forscher, […] «

    Bitte, wo genau behaupten das die Forscher? Lies Dir doch bitte das Abstract noch mal ganz genau durch. Gegen Ende heißt es da:

    “To demonstrate the power of our approach, we also constructed
    a Bayesian decoder [8] by combining estimated
    encoding models with a sampled natural movie prior. The
    decoder provides remarkable reconstructions of the viewed
    movies.”

    Die Rekonstruktionen stammen also eindeutig aus dem “Decoder”. Und “our approach” bezieht sich auf:

    “Here we present a new motion-energy [10,
    11] encoding model that largely overcomes this limitation.
    The model describes fast visual information and slow hemodynamics
    by separate components.”

    Mit “this limitation” sind die langsamen BOLD-Signale der fMRI-Messungen gemeint, die es schwer machen, die Hirnaktivität aus dynamischen Stimuli, wie sie beim Betrachten von Filmen erzeugt werden, zu modellieren.

    Deine Schlussfolgerung, dass die Autoren etwas behaupten oder auch nur suggerieren, was sie nicht gemacht haben, kann ich beim besten Willen nicht nachvollziehen—so gerne ich Dir ja auch mal Recht geben würde.

  27. Danke für den Hinweis, @ursuppe 🙂

    Der Beitrag von “aaallleeexxx” (aus dem Forschungsteam) ist sehr aufschlussreich.

  28. Lupe gefällig?

    Liebes Balanustierchen, ich würde dir ja eine Lupe anbieten, wenn der Titel des Papers nicht so groß und fett gedruckt wäre:

    Reconstructing Visual Experiences from Brain Activity Evoked by Natural Movies.

    Darf ich nun davon ausgehen, dass du mir endlich Recht gibst?

  29. @Stephan

    Das habe ich befürchtet, Du hast nur die Überschrift gelesen und damit war der Käse gegessen.

    Zum Titel habe ich vorgestern schon geschrieben:

    „Und ja, den Titel (Rekonstruieren von visuellen Eindrücken aus der Hirnaktivität, hervorgerufen durch natürliche Filme) könnte man vielleicht so lesen, als würden Hirndaten direkt umgerechnet in Bilddaten. Ist meines Erachtens aber nicht zwingend.“

    Dabei bleibe ich.

    (Zumal ich inzwischen auch den Kommentar von ‚aaallleeexxx’ (Link von @ursuppe) gelesen habe. Wenn das so stimmt, was ‚aaallleeexxx’ schreibt, dann entspräche sogar Deine Lesart des Titels genau dem, was gemacht wurde. Methodisch nicht wie Miyawaki, Y. et al., keine Frage, aber letztlich eben doch „from brain activity“.)

  30. Tiefpunkt der Diskussion

    Balanus, damit ist nun der Tiefpunkt der Diskussion erreicht – wenn du meinen Blog auch nur überflogen hast, wie kannst du dann ernsthaft erwägen, ich hätte womöglich nur die Überschrift gelesen?

    Und wenn du die Überschrift anders lesen kannst als dass dort Videos aus Gehirnaktivierung rekonstruiert wurden, wieso schreiben die Autoren die Überschrift dann nich einfach anders? Oder warum liest du dann nicht richtig?

    Ich dachte übrigens, dass du genug Erfahrung im wissenschaftlichen Publizieren hättest, um zu wissen, dass in der Überschrift eines Papers oft schon die Kernaussage vorweggenommen wird.

    Ferner hatte ich noch keine Zeit, den Kommentar von “aaallleeexxx” in dem anderen Blog zu lesen; ich habe die Originalarbeit sorgfältig gelesen und meine Meinung hier begründet. Wenn etwas, das dieser “aaallleeexxx” dort schreibt, meiner Analyse widerspricht, warum fasst du das Argument dann hier nicht eben in ein, zwei Sätzen zusammen? Das ist für die Diskussion doch relevant.

  31. P.S.

    Ich habe eben die Beiträge von “aaallleeexxx” überflogen und erstens geht es dort vor allem um die Idee, Träume sichtbar zu machen, die hier nur nebensächlich ist, und zweitens argumentiert er zwar dafür, dass sie Videos rekonstruieren, was ich nicht bestreite, aber nicht dafür, dass sie die Videos direkt aus Gehirnaktivierung rekonstruieren.

  32. @Stephan Schleim

    Jetzt bin ich doch tatsächlich geneigt, Dir einmal Recht zu geben: Der Tiefpunkt der Diskussion könnte in der Tat erreicht sein.

    1. Es kann vorkommen, dass eine Überschrift keine eindeutige Aussage hinsichtlich der Methodik enthält. Dann kommt es darauf an, was im Abstract und im Rest der Arbeit steht.

    2. Wenn Du nun die Überschrift so verstehst, dass die Videos “direkt aus Gehirnaktivierung” rekonstruiert wurden, dann könntest Du beim Lesen des Abstracts leicht feststellen, dass die Autoren methodisch einen anderen Ansatz gewählt haben als etwa Miyawaki und Kollegen (2008).

    3. Natürlich denke ich nicht, dass Du nur die Überschrift gelesen hast (ich glaube auch nicht, dass Du denkst, ich würde das denken). Aber warum um Himmels Willens ignorierst Du, was im Abstract und in der Arbeit insgesamt steht?

    4. Im Gegensatz zu Dir habe ich noch nie mit der Hirnforschung zu tun gehabt. An sich müsstest Du also viel besser als ich beurteilen können, was die Forscher gemacht haben. Wenn ich schon erkennen kann, dass die Autoren nach ihren eigenen Angaben methodisch anders vorgegangen sind als etwa Miyawaki 2008, dann solltest Du das doch erst recht erkennen können.

    5. So wie ich das jetzt sehe, besteht Deine Kritik alleine darin, dass die Autoren beim Verfassen der Überschrift geschlampt haben.

    6. ‘aaallleeexxx’ schreibt, dass kein schlichtes “pattern matching” gemacht wurde. Sondern dass ein Modell gebaut wurde, welches die Hirnaktivität durch das Gabor-transformierte Video vorhersagte. Allerdings sei es unmöglich, anhand des Gabor-transformierten Viedeoclips das genaue Original Video wieder herzustellen. Doch mittels des Modells konnte man ziemlich genau vorhersagen, wie das Gehirn auf ein gegebenes Video antworten würde. Und hier kam nun die fünfstündige Filmdatenbank ins Spiel: “To reconstruct a second of video from a particular brain image, we run each of the 18 million seconds of youtube video through the model and get the predicted response. Then we take the few seconds of video whose predicted responses best matched the actual response and average them together.”

    7. Um der Gefahr zu entgehen, dass das Diskussionsniveau noch weiter sinkt, sollten wir an dieser Stelle vielleicht aufhören.

    8. Eine schönen sonnigen Sonntag wünsch ich Dir 🙂

    (Bin ich Dir jetzt mit dem Ausstieg aus der Diskussion zuvorgekommen? ;-))

  33. @ Balanus alias Humpty Dumpty

    Gerade weil ich mir zutraue, etwas besser zu verstehen, was die Forscher gemacht haben, als der durchschnittliche Leser, komme ich in meiner Analyse zu dem Ergebnis, dass sie eben keine Videos aus Gehirnaktivierung rekonstruiert haben. Wenn Sie im Abstract etwas anderes behaupten als im Titel, dann stützt das doch meinen Punkt, dass sie nicht begrifflich sauber arbeiten. Übrigens heißt es in den Results auch wieder:

    …in order to produce reconstructions of natural movies from BOLD signals.

    Es geht dabei auch nicht um die Methodik, sondern das Ergebnis ihrer Studie.

    Gib dich doch endlich mal geschlagen, dass die Forscher an mehreren Stellen im Paper einschließlich des Titels behaupten etwas getan zu haben, was sie nicht getan haben. Ich unterstelle ihnen damit ja keine Lüge, sondern begriffliche Ungenauigkeit.

    Wenn du nicht denkst, dass ich nur die Überschrift gelesen habe und du obendrein denkst, dass ich denke, dass du nicht wirklich denkst, dass ich nur die Überschrift gelesen habe, warum schreibst du dann, dass du befürchtest, ich hätte nur die Überschrift gelesen?

    Was ist das für ein Verwirrspiel, Balanus? Mit dir diskutiert es sich wie mit Humpty Dumpty in Through the Looking Glass:

    “I don’t know what you mean by ‘glory,’ ” Stephan said.
    Balanus smiled contemptuously. “Of course you don’t—till I tell you. I meant ‘there’s a nice knock-down argument for you!’ ”
    “But ‘glory’ doesn’t mean ‘a nice knock-down argument’,” Stephan objected.
    When I use a word,” Balanus said, in rather a scornful tone, “it means just what I choose it to mean—neither more nor less.
    “The question is,” said Stephan, “whether you can make words mean so many different things.”
    “The question is,” said Balanus, “which is to be master that’s all.”

  34. »…warum schreibst du dann, dass du befürchtest, ich hätte nur die Überschrift gelesen? «

    Weil Deine Antwort auf meine Frage, wo die Forscher etwas anderes behaupten, als sie tatsächlich gemacht haben, schriebest: In der Überschrift (sinngemäß, wörtlich: „Liebes Balanustierchen, ich würde dir ja eine Lupe anbieten, wenn der Titel des Papers nicht so groß und fett gedruckt wäre:
    Reconstructing Visual Experiences from Brain Activity Evoked by Natural Movies.”). Also konnte ich annehmen, dass Dir die Überschrift genügte, um zu sagen, die Forscher haben nicht das gemacht, was sie im Paper vorgeben, gemacht zu haben.

    Jetzt nennst Du weitere Stellen, wo die Autoren Deiner Meinung nach unpräzise formuliert haben. Geschenkt. Ich werde jetzt nicht über jede Formulierung mit Dir streiten. Im Kontext der klar beschriebenen Methodik der Forschungsarbeit kann man nur dann die verkürzten Formulierungen anders verstehen, als sie gemeint sind, wenn man es unbedingt anders verstehen will.

    Habe ich eigentlich Mister ‚aaallleeexxx’s Kommentar einigermaßen korrekt wiedergegeben, großer Meister der Hirnforschung?

    So, und zu guter Letzt gebe ich mich endlich geschlagen: Ja, Du hast Recht, wie fast in jedem Paper so mag es auch hier an manchen Stellen begriffliche Ungenauigkeiten geben. Zufrieden?

  35. @ Balanus

    Also konnte ich annehmen, dass Dir die Überschrift genügte, um zu sagen, die Forscher haben nicht das gemacht, was sie im Paper vorgeben, gemacht zu haben.

    Dann hätte ich mir diesen Blogbeitrag ja sparen können.

    Im Kontext der klar beschriebenen Methodik der Forschungsarbeit kann man nur dann die verkürzten Formulierungen anders verstehen, als sie gemeint sind, wenn man es unbedingt anders verstehen will.

    Das ist nicht der Punkt. Der Punkt ist, ob die Forscher das gemacht haben (siehe Methods), was sie an anderer Stelle behaupten (bsp. Results) und vor allem auch so in den Medien aufgeschnappt wurde.

    Forscher wählen heutzutage ihre Überschrift mit Absicht, denn diese wird natürlich als erste gelesen (unsere Psychologiestudenten lernen das sogar in dem Einführungskurs, dass sie Überschriften auf Aufmerksamkeitswirkung optimieren müssen). Vielleicht bist du mit der US-amerikanischen Publikationskultur nicht so vertraut? Ich habe das auch so beigebracht bekommen, dass die Überschrift nicht nur irgendein Text ist, sondern die Arbeit möglichst “sexy” zusammenfassen muss.

    …großer Meister der Hirnforschung?

    Das bin ich nicht; ich beanspruche für mich aber das Recht, mir meine eigene Meinung zu machen. (Und hier dann manchmal darüber zu schreiben.)

    Ja, Du hast Recht, wie fast in jedem Paper so mag es auch hier an manchen Stellen begriffliche Ungenauigkeiten geben. Zufrieden?

    Haha, dann gibst du mir also zumindest prinzipiell Recht, auch wenn du das Problem herunterspielst. Danke, das wird fürs Protokoll festgehalten. 😉

  36. @Stephan

    Mm, Staphan, ich finde Ihre kritische Arbeit super und stimme auch sehr oft Ihren Kritiken zu, hier allerdings kann ich sie einfach nicht nachvollziehen. Vielleicht verstehe ich das Experiment auch einfach nicht.Ich wäre dann froh, wenn Sie mich korrigieren könnten.

    Sowie ich das verstanden habe, wurden, grob vereinfacht, folgende Schritte durchgeführt:

    1. Daten per fMRI aufgezeichnet, mittels Voxeln und BOLD Signal vereinfacht und mit dem gezeigten Video verknüpft, so dass ein Modell entstand.

    2. Neue Filme vorgespielt und dann das Modell aus dieser großen YouTube Datenbank die Schnipsel diejenigen Videoschnipsel aussuchen lassen, die bei ähnlicher Hirnaktivierung aftreten könnten. Kritieren waren dabei vor allem Helligkeit und Bewegung.

    3. Die “passendsten” Bilder ausgewählt und zusammengeschmolzen.

    Es sind jetzt bestimmt bei mir Fehler bei den Details des Aufbaus drin (habe die Arbeit dafür jetzt nicht ein zweites Mal gelesen), aber ist es im groben Korrekt? Falls ja, ist die Arbeit dann zwangsläufig mehr als “Datamining in den Filmdatenbanken”, weil zumindest Vorhersagen aus den fMRI Berechnungen zu Helligkeit und Bewegung benutzt wurden. Man könnte dann vieleicht noch nicht von einer Rekonstruktion des gesehenen Videos sprechen, doch aber von einer Rekonstruktion der Helligkeitverteilung und Bewegungsinformation der gezeigten Videos.

    Falls ich etwas wichtiges in Ihrer und Markus A. Dahlems Kritik einfach nicht verstanden habe, hoffe ich auf Korrektur.

  37. @Stephan Schleim

    Mir genügt es, dass Du von der Behauptung abgerückt bist, die Autoren würden behaupten, sie hätten die Videos direkt aus den Hirndaten rekonstruiert und nunmehr von “begrifflichen Ungenauigkeiten” sprichst.

    Wie ich sehe, bist Du mit der (Neben-)Funktion einer Überschrift als Eyecatcher vertraut. Ein Titel muss nicht unbedingt alle wichtigen Informationen enthalten. Das, was im Titel nicht gesagt wird, findet sich schließlich unmittelbar darunter im Abstract.

    Es darf halt nur nichts Falsches in der Überschrift behauptet werden. Und Du wirst inzwischen ja wohl zugeben, dass die Videorekonstruktionen mehr waren als bloßes “pattern matching”. Insofern ist der Titel korrekt gewählt. Ob die Rekonstruktionen direkt oder mehr indirekt “from brain activity” erfolgten, bleibt im Titel offen. Das mag Dich stören, aber falsch wird die Überschrift dadurch nicht.

    Bleibt nur noch anzumerken, dass ich kein Problem herunterspiele, sondern dass Du hier mal wieder ein Problem über Gebühr aufgebauscht hast… 😉

  38. Ach, Balanus!

    Ich bin von überhaupt nichts abgerückt. Entweder wir sprechen davon, dass die Hirnforscher Videos rekonstruiert haben, dann haben sie das zwar getan, aber eben nicht aus Hirnaktivierung; oder wir sprechen davon, dass sie etwas mit Hirnaktivierung tun, dann haben sie damit aber nicht Videos rekonstruiert, sondern eine Schätzung ihres Modells für die jeweiligen Videos mit der tatsächlichen Messung verglichen und auf diese Grundlage die hundert besten Übereinstimmungen gemischt.

    Durch Einfügung des Wörtchens “direkt” kannst du dich überhaupt nicht retten, ebenso wenig wie früher bei der Diskussion um mittelbare/unmittelbar Ursachen. Ich habe das Wörtchen hier vor dem 2. Oktober auch überhaupt nicht verwendet. Darum ging es mir nie. Worum es mir geht, siehe vorheriger Absatz.

    Was den Titel betrifft, hier ein letztes Mal, auch dabei geht es nicht um direkte oder indirekte Rekonstruktion, sondern um die Rekonstruktion aus Gehirnaktivierung (“reconstructing … from brain activity”).

    Du kannst dich beispielsweise vor Gericht auch nicht damit rausreden, wenn du erst viermal geschworen hast, dass das Auto rot war, beim fünften Mal aber sagt, es war vielleicht rot oder blau.

  39. @ Hagthorpe

    Sie trainierten erst ein Modell anhand der fMRT-Aktivierungen während der zweistündigen Trainingssession mit den Trainingsvideos.

    Dieses Modell kann dann für ein neues Video (in diesem Fall anhand der Dimensionen Helligkeit und Bewegung) eine Schätzung abgeben, wie die gemessene fMRT-Aktivierung aussehen müsste.

    Mithilfe des Vergleichs der Schätzungen für das 5000-stündige neue Filmmaterial mit der tatsächlichen fMRT-Messung wurden jeweils die hundert besten Videos aus der Datenbank ausgewählt (das war mit Datamining gemeint). Die Rekonstruktion des Zielvideos besteht dann aus einer Mittlung dieser hundert besten Treffer (siehe auch das verlinkte YouTube-Video).

    Als Maßstab für eine visuelle Rekonstruktion aus Gehirndaten nehme ich, dass man aus den Daten einer Messung einen Rückschluss darauf nimmt, wie das Video aussieht und dies visualisiert.

    Schon dass im Modell nur Helligkeit und Bewegung enthalten waren, die Video-Rekonstruktionen aber Farbe enthalten, zeigt bereits, dass die Quelle eben hier nicht die gemessene Gehirnaktivierung (ohne Farbinformation), sondern die Filmdatenbank (mit der Farbinformation) ist.

    Was das Modell ausspuckt, sind eben abstrakte Zahlen, die mit Helligkeit und Bewegung in einem komplizierten Zusammenhang stehen; würde man diese visualisieren, dann würde das sehr anders aussehen als die hier rekonstruierten Videos.

  40. @Stephan Schleim

    Zitat:

    Entweder wir sprechen davon, dass die Hirnforscher Videos rekonstruiert haben, dann haben sie das zwar getan, aber eben nicht aus Hirnaktivierung; oder wir sprechen davon, dass sie etwas mit Hirnaktivierung tun, dann haben sie damit aber nicht Videos rekonstruiert, sondern eine Schätzung ihres Modells für die jeweiligen Videos mit der tatsächlichen Messung verglichen und auf diese Grundlage die hundert besten Übereinstimmungen gemischt.

    Mannomann, über die angewandte Methode besteht doch überhaupt kein Dissens. Es geht doch nur darum, ob und wie oft die Autoren, wissentlich oder unwissentlich, den (falschen) Eindruck erwecken, sie hätten die rekonstruierten Filme direkt aus den Hirndaten errechnet. Deiner Meinung nach ja und zu oft—okay, das habe ich verstanden.

    Und ich verstehe auch Dein Plädoyer für genau und unmissverständlich formulierte Überschriften.

    Was meinst, wenn der Titel nun so:

    “Reconstructing Visual Experiences Based on Brain Activity Evoked by Natural Movies”

    oder so ähnlich gelautet hätte (was technisch ja wohl zutrifft, auch wenn’s etwas komisch klingt), glaubst Du, dann wäre das Medienecho signifikant anders ausgefallen?

    Das wirklich Neue und Tolle an der Arbeit bliebe davon doch unberührt, nämlich dass die rekonstruierten Filme (oder Helligkeits- und Bewegungsmuster), wie Du ja selbst schreibst, “[auf] der tatsächlich gemessenen Gehirnaktivierung [beruhen]“.

  41. @ Balanus

    Deinen alternativen Vorschlag finde ich besser; dazu noch der Hinweis (z.B. im Abstract), dass die Hirnaktivierung, worauf die Rekonstruktion basiert, tatsächlich die Hirnaktivierung der Trainings-Session ist und nicht diejenige der für das aktuell zu rekonstruierende Video, anhand der der Vergleich durchgeführt wird (“pattern matching”).

Schreibe einen Kommentar