Doch kein Voodoo in der Hirnforschung
BLOG: MENSCHEN-BILDER
Die heftigen Vorwürfe des MIT-Nachwuchswissenschaftlers Edward Vul sind binnen kürzester Zeit um die ganze Welt gegangen. Jetzt entpuppen sie sich als übertrieben und unsauber recherchiert.
+++ Achtung, die Informationen in diesem Artikel sind nicht 100% korrekt. Bei den “Voodoo-Korrelationen” handelt es sich um ein methodologisch kompliziertes Problem, über das ich aufgrund der Aktualität damals schnell schreiben wollte. Bitte haben Sie etwas Geduld, bis ich einen besseren Artikel verfügbar mache. Sofern Sie englisch lesen können und darauf Zugriff haben, empfehle ich den Artikel Everything you never wanted to know about circular analysis, but were afraid to ask (Journal of Cerebral Blood Flow & Metabolism, 2010, 30, 1551–1557). +++ (S. Schleim, 20. März 2012)
Die Sprache, die Edward Vul mit seinen Co-Autoren in dem Aufsatz über “Voodoo-Korrelationen” in der Hirnforschung wählte, hätte kaum deutlicher sein können: Nicht nur der Titel “Voodoo-Correlations in Social Neuroscience”, sondern auch die Rede von “unplausibel hohen” Korrelationen, die “wahrscheinlich […] falsch” seien und denen “man nicht glauben sollte”, ließen keinen Zweifel an der Schärfe der Vorwürfe. Auch sind die angegriffenen Wissenschaftler völlig davon überrumpelt worden, dass Vul ein Manuskript dieser Arbeit schon Monate vor Erscheinen des Artikels in Umlauf gebracht hat und sie von Journalisten das erste Mal davon erfahren mussten.
Jetzt hat Matthew Lieberman, Leiter des Social Cognitive Neuroscience Laboratory an der University of California in Los Angeles zusammen mit zwei anderen Psychologen zu den Vorwürfen Stellung bezogen. In dem Aufsatz mit dem Titel “Correlations in Social Neuroscience Aren’t Voodoo” (PDF) weisen die Forscher nach, dass die Vorwürfe nicht nur übertrieben sind, sondern auch auf einer schlechten Recherche basieren. Zu dieser Stellungnahme sind sie von den Redakteuren der Zeitschrift Perspectives on Psychologocial Science eingeladen worden.
Kurz zur Wiederholung: Der Rebell vom Massachussetts Institute of Technology hatte mit seinen Koautoren vor allem auf das Problem hingewiesen, das bei Korrelationsanalysen zwischen Hirnaktivierung und Verhaltensmaßen auftaucht: Wenn man in den mehreren zehntausend Datenpunkten (“Voxeln”), für welche die Hirnforscher pro Versuchsperson Signalverläufe messen, nach einem statistischen Zusammenhang suche, dann würde man auch solche Voxel auswählen, die nur aufgrund des zufälligen Signalrauschens ein positives Ergebnis lieferten. Mit einer Computersimulation wollten sie nachweisen, dass dieses Problem auch dann besteht, wenn man mit einer strengen statistischen Schwelle operiere. Das würde auch erklären, warum die berichteten Korrelationen so “unplausibel hoch” seien, also einen sehr starken Zusammenhang zwischen Gehirnaktivierung und Verhaltensmaß nahelegten.
Lieberman und Kollegen haben in ihrer Erwiderung auch Computersimulationen durchgeführt. Allerdings rechneten sie den Fall nicht nur für die Gruppengröße von N=10 Versuchspersonen durch, worauf sich Vul und Kollegen beschränkt hatten, sondern auch für N=15, N=18 und N=20. Das ist insofern relevant, als die durchschnittliche Teilnehmerzahl der kritisierten Studien bei N=18,25 lag, also deutlich höher als bei der ersten Simulation. Die Ergebnisse zeigen: Je größer N ist, desto unwahrscheinlicher werden falsch-positive Ergebnisse für große Korrelationswerte. Schon bei N=18 würden über 75 Prozent kein falsches, gerade einmal 2 Prozent zwei oder mehr falsche Ergebnisse liefern.
Unabhängig von diesen Simulationen hätte Vul und Kollegen ein anderer Aspekt etwas mehr zurückhaltung lehren sollen: Die positiven Korrelationen, bei denen es keinen echten Zusammenhang zwischen Gehirn und Verhaltensmaß gibt, müssten zufällig über das gesamte Gehirn verteilt sein; schließlich unterliegen alle Voxel dem Signalrauschen. Nun berichten viele der kritisierten Studien ihre Ergebnisse aber für umrissene Hirnregionen, die auch schon in anderen Experimenten gefunden wurden. Das macht die Zufallsannahme unplausibler, denn wieso sollten die Ergebnisse immer am genau selben Ort falsch-positiv sein?
Ein wesentlich gravierender Einwand betrifft jedoch die Auswahl der Daten, auf denen Vul und Kollegen ihre Kritik gründeten. Lieberman und Kollegen fanden nämlich heraus, dass 54 Korrelationswerte aus den kritisierten Studien nicht in die Analyse aufgenommen worden waren. Stattdessen wären dort drei “Korrelationen” aufgeführt worden, die in Wirklichkeit gar keine Korrelationen sind. Mit den korrigierten Daten stellt sich das Bild aber bei weitem nicht mehr so dramatisch dar, wie es in dem “Voodoo-Artikel” behauptet wurde. Wer so eine harte Kritik übt, der sollte sein Datenmaterial aber sorgfältiger auswählen.
Damit entpuppen sich die Vorwürfe, die in zahlreichen Medienberichten weltweit aufgegriffen wurden, bei näherer Betrachtung als übertrieben heraus. Die Fehler bei der Datenerhebung sind außerdem mehr als peinlich. Damit sind aber nicht alle der kritischen Einwände vom Tisch. Vul und Kollegen wiesen nämlich auch auf methodisch Probleme hin, die beispielsweise mit der Verortung von Hirnaktivierung ganz allgemein zu tun haben. Viele Studien würden der Tatsache nicht Rechnung tragen, dass jedes Gehirn individuell ist und ihre Ergebnisse auf Vorlagen projizieren, die nicht repräsentativ sind. Außerdem würden Hinweise darauf fehlen, dass die in Einzelexperimenten gefundenen Zusammenhänge auch zu stabilen Vorhersagen über die Verhaltensmaße anderer Menschen taugen. Es bleibt also auch weiterhin viel für die Forscher zu tun.
Foto: © Harald Wanetschka (Running Man Fotos) / PIXELIO
Bei dem staatlichen Bedürfnis nach Überwachungs- und Aufklärungsfunktionen sollte es auch Voodowissenschaftlern leicht fallen, dort entsprechende Forschungsgelder abzukochen. Ich bezweifele aber, dass Messungen von Gehirnaktivitäten für diese Bedürfnisse zum Erfolg führen werden.
Vodoo oder gesunde Skepsis…..?
ob nun die Voxel das anzeigen, was die Forscher glauben zu sehen…..die Korrelationen “echte” Korrelationen oder zufällige Beziehungen sind, all das ist mit der Replik von Liebermann u.a. nicht belegt…..
Wie man eingepfercht in einem riesigen lärmendem Kasten umgeben von einem “Kopfgitter” sozialpsychologische und psychologische Korrelate im Gehirn feststellen will, ist mir immer noch ein Rätsel…..
Keinesfalls eindeutig sind die ausgemachten Hirnbereiche in ihren Funktionen, die Amygdala nicht nur für Ängste, sondern auch für andere gegenteilige Gefühle verantwortlich…im Vorderhirn bündeln wir unsere Kontrolle und auch dort sind dann vielfache “Korrelationen” zu kognitiven Funktionen zu finden.
Überlagert werden alle Messungen von den “Gefühlen” der Probanden im lärmenden “Messkäfig”, zu einfach sind die Fragestellungen, welche sich während des Aufenthaltes in diesem “Messkäfig” wirklich stellen lassen……
Das Leben und Handeln ist komplex und findet nicht im Labor statt, das Messen im Gerätelabor reduziert das richtige Leben auf klitzekleine, oft irrelevante Detailfragen und immer noch kommt dabei heraus, dass unser Gehirn selbst für einfachste Fragen ganze Netzwerke mobilisiert und die Anhänger der Lokalisationstheorie windige Erklärungen suchen…..
Also doch Vodoo? Eigentlich gibt es doch mehr offene Fragen, als beantwortete….
@ Monika: Kritik
Hmm, hier, finde ich, sollte man zwei Fragen unterscheiden:
Erstens, haben die Forscher die statistischen Methoden richtig benutzt?
Zweitens, messen die Experimente wirklich das, was die Forscher behaupten?
Natürlich setzt eine positive Antwort auf die zweite Frage voraus, dass die erste positiv beantwortet wurde; das gilt aber nicht umgekehrt.
Ich finde, die Kritik von Vul und Kollegen ist im Sinn der ersten Frage zurückgewiesen, es gibt also keine “Voodoo-Korrelationen”.
Die Einwände, die du hier anführst, betreffen meines Erachtens die zweite; es ist eine Kritik, die die Validität der Forschung betrifft. Hierüber kann — und sollte — man schon streiten; sind das wirklich Gefühle, die im Hirnscanner untersucht werden, wenn man zwanzig mal hintereinander einer Person im Messkäfig, wie du es formulierst, ein angsteinflößendes Bild zeigt? Gibt es nicht andere Erklärungen für die Ergebnisse, die ebenfalls sinnvoll sind?
Über das Problem, das du nennst, habe ich auch schon unter der Überschrift der “Reverse Inference” geschrieben: Man macht einen Umkehrschluss von Hirnaktivierung auf psychische Vorgänge — und dieser Umkehrschluss ist nicht immer gerechtfertigt, vor allem dann, wenn ein Hirnbereich ganz viele Funktionen erfüllt.
Und du weißt ja: Alles hängt (irgendwie) mit allem zusammen. 🙂
Das ist dann aber schon wieder Stoff für einen anderen Blogbeitrag…
@ Stephan
D.h.- sofern ich Dich richtig verstanden habe- es stellt sich bzgl. der “Vodoo-Korrelationen” nur die Frage, ob die statistischen Methoden richtig benutzt wurden?
Du weißt, dass ich den Dingen gerne ganz auf den Grund gehe und deshalb habe ich Probleme, Deine Antwort zu verstehen.
So frag ich mal ganz dumm (sorry), wie sieht eine “richtige” Benutzung von statistischen Methoden gegenüber einer “unrichtigen” Benutzung aus ? Könnte das Problem der Autoren, worüber Du berichtet hast, gerade darin bestehen, dass hier mit ungenauen Begrifflichkeiten und Metaphern kritisiert worden war. Ich kenne ja nun die Originalbeiträge nicht, so dass meine Einschätzung noch weiter oben an der Oberfläche liegen könnte…..
Würde gerne wissen, wie es auf dem “Grund” aussieht 😉
@ Schleim
Ok, vielleicht kein Voodoo.
Danke für’s Update!
Aber doch immer noch die pikante Frage, WAS da gemessen wird. Gerade NatureReviewsNeurosci. durchgeblättert. Darin eine kleine Notiz: im somatosenorischen Cortex von Ratten rechts ein BOLD-Signal bei gleichzeitiger neuronaler Aktivität und 2-DG-Aufnahme, links ebenfalls ein positiver BOLD, aber Schweigen im Walde und kein 2-DG Anstieg.
@ Monika: Methoden & Validität
Ein methodisches Problem im Sinn von Vul und Kollegen liegt vor, wenn du einen statistischen Zusammenhang berichtest (hier: Korrelationen zwischen Hirn und Verhalten), dem kein echter Zusammenhang zugrunde liegt. Allein Zufallsrauschen, das man eben bei vielen zehntausend Signalen hat, die man alle zwei Sekunden misst, machen den statistischen Zusammenhang signifikant (das nannten sie “Voodoo-Korrelationen”).
Liberman und Kollegen haben jetzt darauf hingewiesen, dass dieser Einwand übertrieben ist, da dieser Fall bei entsprechenden Sicherheitsvorkehrungen kaum auftritt.
Ein anderes Problem ist freilich, was da im Scanner wirklich gemessen wird; und damit meine ich jetzt nicht das Gehirn, sondern die kognitiven/emotionalen Vorgänge. Dann ist es eine Frage der Validität des Experiments, ob ich beispielsweise wirklich Angst untersuche, wenn ich den Versuchspersonen solche und solche Bilder zeige.
Auch wenn du alle deine statistischen Methoden richtig verwendest, kannst du trotzdem die Kriterien der Validität verletzen. Ich denke, aus der sogenannten Neurodidaktik sind dir genügend Fälle bekannt. Beispiel: Mäuse entwickeln sich in einer reichhaltigen Umwelt besser; Schluss: Also müssen wir den Kindern im Unterricht eine reichhaltigere Umwelt bieten (vielleicht Palmen aus Pappmaschee im Klassenraum aufstellen?).
Ist das ein valider, ein gültiger Schluss?
Zur Lösung der Methodenfrage gibt es klare Kriterien, auch wenn hier vieles auf Konvention beruht (z.B. Fragen der Signifikanzschwelle); das Validitätsproblem ist aber nicht so leicht in den Griff zu bekommen und ich habe es oft erlebt, dass Forscher schnell genervt reagieren, wenn man mit ihnen darüber diskutiert.
@ Helmut: Die WAS-Frage
In der neuen G&G gibt es ja dieses Statement von Logothetis, der zu den Grenzen der fMRT Bezug nimmt.
Natürlich ist es wissenschaftlich besser, wenn ich verschiedene Verfahren (bsp. EEG & fMRT sowie Elektrophysiologie usw.) miteinander kombiniere — aber wer (außer Logothetis und ein paar anderen Gruppen) macht das schon? In der kognitiven Neurowissenschaft??
Ich denke, wir werden noch viele Überraschungen erleben, was die Natur des BOLD-Signals betrifft. Es gibt ja immer mehr Befunde für BOLD-Signale ohne LFPs und auch Einflüsse von Supportzellen usw. Wie “neuronal” das BOLD-Signal wirklich ist, das wird sich sicher noch zeigen.
@Wicht & NatureReviewsNeurosci article
naja… so wie ich das sehe, sagt die original publikation:
stimulation der rechten pfote ->
contralateral: höhere glucose aufnahme, höhere neuronale aktivität, stärkerer bold contrast = erwartet.
ipsilateral: etwas höhere glucose aufnahme und neuronale aktivität ausgelöst durch trans-commissurale projektionen = erwartet. ABER: verminderung des BOLD contrast = nicht erwartet.
also entweder habe ich was nicht verstanden, oder das review ist falsch (wovon ich eigentlich auch nicht ausgehe)