Bloggewitter: Diesseits der Reproduzierbarkeit – oder: Wo Wissenschaft drauf steht, ist noch lange keine Wissenschaft drin

BLOG: WIRKLICHKEIT

Hirnforschung & Theologie
WIRKLICHKEIT

Wenn der Arzt einem einzelnen Patienten gegenüber sitzt, der ihm sein Leid klagt, dann ist diese hochpersönliche Situation genauso weit von Wissenschaft entfernt, wie wenn ein Astrophysiker an einem lauen Sommerabend mit seiner Freundin einen Sonnenuntergang in den Alpen bewundert. Der Patient sucht beim Arzt Heilkunst, d.h. spezielles Können zur wirksamen Vorbeugung von Krankheiten, zur Linderung von Schmerzen und zur vollständigen Genesung von Krankheiten und Verletzungen. Den Arzt sollte daher nur eine einzige Frage beschäftigen: Was hilft diesem Patienten? bzw. wenn er Alternativen erkennt: Was hilft dem Patienten am ehesten?

Auf der einen Seite stehen die geschilderten und beobachtbaren Symptome. Dummerweise können sehr unterschiedliche, pathologische Veränderungen im Körper auf ziemlich ähnliche Krankheitssymptome konvergieren mit der Konsequenz, dass die optimale Behandlung ein und desselben Leidens je nach Ursache im Körper völlig unterschiedlich aussehen muss. Umgekehrt können recht ähnliche Pathologien auf ziemlich unterschiedliche Symptome divergieren. Wenn es ganz schlecht läuft (wie bei vielen Tumorerkrankungen oder auch bei M. Parkinson), gibt es zunächst gar keine Symptome – und wenn diese schließlich doch zu Tage treten, ist bereits alles zu spät.

Auf der anderen Seite stehen die verfügbaren Therapieoptionen: ermutigende Gespräche, physikalische Anwendungen (z.B. Physiotherapie), Medikamente, Operationen, Bestrahlung, Prothethik und Neurostimulation. Wiederum haben diese Interventionen komplexe, im Einzelfall unvorhersehbare Auswirkungen auf das körperliche und emotionale Befinden eines Patienten – abhängig von seiner Genetik, seinen persönlichen Einstellungen, seiner Vorgeschichte, seinem sozialen Umfeld, seiner Lebenssituation u.ä.

Kurz: weder im diagnostischen noch im therapeutischen Bereich hat man es mit einfachen (linearen) Ursache-Wirkungs-Beziehungen zu tun, immer reden wir von kaum berechenbaren Vorgängen in hochkomplexen Systemen: Organ, Organismus, Individuum-Umwelt-Interaktion.

In dieser hochkomplexen Situation nun die medizinische Wissenschaft in Anschlag zu bringen – hauptsächlich in Form von Messung und Experiment -, ist zunächst einmal ein fundamentales Eingeständnis: Wir wissen im Einzelfall meist nicht, was sicher hilft, und können es prinzipiell nicht wissen! Was wir tun können, ist: Wir evaluieren systematisch frühere Behandlungsergebnisse in hinreichend großen Gruppen hinreichend ähnlicher Patienten anhand schlüssiger Erfolgskriterien. Der Arzt schaut dann in diesen Studien nach und kann dem Patienten, der gerade vor ihm sitzt, beispielsweise sagen: “Man hat vor 2 Jahren in Japan 50 Patienten mit ihrer Diagnose mit Methode X behandelt und weitere 50 Patienten mit Methode Y. Ein halbes Jahr später waren in Gruppe X 40 Patienten und in Gruppe X 30 Patienten deutlich gebessert. Daher schlage ich Ihnen die Behandlung mit Methode X vor.” Die alternativen Methoden X und Y können beide “aktive” Therapien sein. Bei einer von beiden Methoden könnte es sich aber auch einfach um die Methode “Abwarten und Tee trinken” gehandelt haben oder um eine “Scheinbehandlung” (Placebo), bei der man mit großem Tamtam nur so tut als ob. In die Waagschale muss man selbstverständlich auch die unerwünschten Effekte (“Nebenwirkungen”) der beiden Behandlungsstrategien werfen, wobei man bei einer Gesamtbeurteilung von Effekten und Nebeneffekten meist Äpfel mit Birnen vergleichen muss. Und wenn man dann noch die Kosten hinzunimmt, muss man sogar Äpfel, Birnen und Citronen miteinander vergleichen! Nehmen wir für die weiteren Überlegungen an, dass sich die die Kosten der Behandlungen X und Y und die Nebenwirkungen in Häufigkeit und Intensität nicht wesentlich unterschieden haben. Wir hätten somit eine evidenzbasierte Therapieempfehlung für Option X.

Dumm wäre nun, wenn sich herausstellte, dass in Studiengruppe X mehr Frauen und in Studiengruppe Y mehr Männer waren – und unser Patient ausgerechnet ein Mann ist: Spielte das Geschlecht für den seinerzeitigen Behandlungserfolg eine Rolle? Wie ist es mit dem Alter, dem Bildungsstand, der genetischen Ausstattung, usw.? Der Arzt beruhigt seinen Patienten: Die Studie war randomisiert, d.h. die Patienten wurden zufällig beiden Behandlungsbedingungen zugewiesen. Ja, es stimmt, Randomisierung verspricht, dass sämtliche für den Behandlungseffekt bekannter- und unbekannterweise relevanten Faktoren auf beide Gruppen “in the long run” gleich verteilt sind. “In the long run”? Genau. Aber zählen 100 Patienten schon als “in the long run”? Sicher nicht …

Schlimmer noch: 10 Patienten in Gruppe X hatten sich nicht verbessert, während 30 Patienten in Gruppe Y beim Follow-up besser dran waren – wie aber kann der Arzt wissen, dass sein Patient nicht eher zu diesen immerhin 40 von 100 Patienten gehört? Ganz einfach: er weiß es nicht! Er schätzt nur, er gibt einen Tipp ab, er wettet. Der Patient bittet um einen Rat – und der Arzt rät. Und zwar auf Basis seiner Hoffnung, dass in seinen nächsten 50 Patienten, die den klinischen Kriterien der Studienpatienten hinreichend entsprechen, ebenfalls bei ca. 40 Patienten eine Verbesserung erzielt werden kann.

Verbesserung, wohlgemerkt – nicht: Heilung. Tatsächlich zielen Therapiestudien bei chronischen Krankheiten seit nunmehr 20 Jahren zunehmend nicht auf Heilung, sondern auf eine gewisse Verbesserung (“therapy response”) der Symptomatik, häufig gemessen als Halbierung eines vorab gewählten etablierten Zielmaßes (z.B. 50%-Reduktion der Auftretenshäufigkeit oder der subjektiv erlebten Intensität der Krankheitssymptome). Hier wird es nun heikel, denn Symptome schwanken natürlicherweise immer in ihrer Häufigkeit und Intensität: es geht rauf und runter, das kennt man. Wenn man zum Arzt geht, ist es vermutlich akut eher schlimmer. Statistisch ist es aber so, dass etwas, das gerade sehr schlimm ist, in nächster Zeit wahrscheinlich nicht noch schlimmer wird, sondern sich tendenziell eher wieder bessern wird (beispielsweise um 50%), und zwar ganz ohne Behandlung und ohne behandlungsbezogene Nebenwirkungen (und Kosten). Die spontan eintretende Verbesserung wird – in Folge eines logischen Fehlschlusses – meist der erfolgten Behandlung gutgeschrieben, z.B. einer Erhöhung der Medikamentendosis. Tritt keine Verbesserung ein, wird die erfolgte Maßnahme ebenfalls nicht zurückgenommen, sondern – weil es dem Patienten ja immer noch schlecht geht – auf jeden Fall beibehalten. So kommt es bei chronischen Krankheiten über die Jahre stets zu einer immer weiteren Erhöhung der Medikation (Anzahl und Dosis der Medikamente) trotz unveränderter Symptomatik. Unerwünschte Nebenwirkungen von Medikamenten sind bekanntermaßen ein wesentlicher negativer Faktor für die Lebensqualität – und schlechte Lebensqualität intensiviert die Wahrnehmung der Symptomatik. Der Kreis schließt sich.

Wenn man auf eine gewisse Symptomverbesserung hin behandelt, wird man – insbesondere bei Erkrankungen mit stark schwankender Symptomatik (z.B. Epilepsie, Depression) – also besonders darauf achten müssen, ob Behandeln überhaupt eine bessere Wirkung verspricht als bloßes Zuwarten. Überhaupt scheint mir dies eine entscheidende Voraussetzung für die klinische Anwendung einer Therapie zu sein: dass – unter Berücksichtigung von Nebenwirkungen und Kosten – ihr größerer Nutzen im Vergleich zur Nichtbehandlung nachgewiesen werden konnte. Nichtbehandlung – nicht: Placebobehandlung! Denn der Vergleich zu einem Placebo beweist lediglich die spezifische Wirksamkeit in Richtung des angenommenen Mechanismus der “wahren” Behandlung (z.B. ein pharmakologischer Effekt) – aber es bleibt völlig unklar, ob man nicht besser einfach gar nix macht.

Aber was ist dieser langen Vorrede (kurzer) Sinn im Kontext eines Bloggewitters zur fraglichen Reproduzierbarkeit von Forschungsbefunden?

Es ist für mich absolut erschütternd zu sehen, dass ein ganz wesentlicher Anteil medizinsch-klinischer Patientenstudien überhaupt keine Kontrollbedingung verwendet; 50-60% der Studien sind nach meiner Einschätzung sogenannte Single-arm-Studien: Studienpatienten werden – in einer einzigen Gruppe! – zu Beginn untersucht (Baseline), sie erhalten dann über einen gewissen Zeitraum eine Therapie und werden dann wieder untersucht (Follow-up). Und – natürlich! – sind viele Patienten nun besser dran als vorher (siehe oben!). Da sich über die Zeit aber alles ändert – und zwar systematisch, wenn viele Personen sich zu Beginn in einer ähnlichen Situation befinden -, können solche Studien nichts anderes als die über die Zeit hinweg eingetretene Veränderung konstatieren. Jegliche Zuschreibung dieser Veränderung (sagen wir: Verbesserung) zur erfolgten Therapie oder gar zu einem spezifischen Teilaspekt dieser Therapie (z.B. der neu hinzugefügten Komponente) verbietet sich jedoch streng aus logischen Gründen: Ohne Kontrollgruppe wissen wir nicht, was die Veränderung bewirkt hat. – Doch genau diese Zuschreibungen von Wirksamkeit auf Basis unkontrollierter Studien sind heute gang und gäbe in der Medizin, der sogenannten “Schulmedizin”, die sich “Wissenschaft” in großen leuchtenden Lettern auf die Fahnen schreibt. Ganz schlimm wird es, wenn in einer solchen Studie diejenigen, die sich verbessert haben – sogenannte Responder – mit denen verglichen werden, bei denen keine Verbesserung eingetreten ist: Tatsächlich ist der Nachweis von Response mit einem solchen Studiendesign überhaupt nicht möglich, also gibt es auch keine Responder, sondern nur eine Zufallsverteilung um den Mittelwert …

Unkontrollierte Studien können meines Erachtens allenfalls als Fallserie gewertet werden, mit der man die prinzipielle Anwendbarkeit und Sicherheit einer neu zugelassenen Therapie dokumentieren kann. Wenn das jedoch nach 1-2 Jahren erledigt ist, sind unkontrollierte Studien nicht nur sinnlos, sondern regelrecht irreführend, weil sie irrigerweise positive Therapieeffekte suggerieren. Solche Studien gehören verboten!

Ich selbst kann drei einschlägige persönliche Erfahrungen mit dem Publikationssystem in der Medizin berichten, die nicht ohne Konsequenzen für meinen akademischen Werdegang blieben:

(1) Die eigene neuropsychologische Promotionsstudie war experimentell angelegt. Mangels Effekten – das untersuchte Verfahren hatte die erwartete Wirkung nun mal nicht – gelang keine Publikation in einer der einschlägigen Fachzeitschriften, sondern nur in einer Zeitschrift mit Editor-Review. Entsprechend (sic!) war auch keine ausgezeichnete Note mehr drin. Ich bin ein netter und ehrlicher Mensch – aber: Braucht es bitteschön noch eine überzeugendere Einladung, Daten zu fälschen, auszuwählen oder in geeigneter Weise zu ergänzen, bis ich den von allen erwarteten, karriereförderlichen Effekt endlich habe? Dieses System ist des Wahnsinns.

(2) Im Zusammenhang mit Depressionen bei Epilepsie – einem Thema mit dem ich mich in den letzten Jahren eingehender beschäftigt habe – empfehlen alle Experten einhellig antidepressive Medikation. Allerdings gibt es dazu, wie meine Recherchen ergaben, in diesem Patientenkollektiv überhaupt keine kontrollierten Studien und nur eine unkontrollierte Studie mit gelinde gesagt mäßigem Ausgang (schon allein in Bezug auf die Therapieadhäsion, also das Beibehalten der Studienmedikation). Ich bestreite nicht die mögliche Wirksamkeit antidepressiver Medikamente, sondern weise lediglich darauf hin, dass die Expertenempfehlungen nicht wissenschaftlich (“evidenzbasiert”) sind.

(3) Für die Vagusnerv-Stimulation, die mittlerweile bei weit über 60.000 Patienten mit Epilepsien und Depressionen weltweit implantiert wurde (initiale Kosten ca. € 15-20.000,-) liegen keine prospektiven Studien vor, die Anwendung gegen Nichtverwendung vergleichen. Wir selbst haben kürzlich eine retrospektive Auswertung bei unseren Patienten durchgeführt und keinen Vorteil für die behandelten Patienten im Vergleich zu ausschließlich medikamentös behandelten “matched pairs” finden können. Wiederum war eine Publikation in den einschlägigen Fachzeitschriften unmöglich, erst Fachzeitschrift Nr. 4 hat die Studie akzeptiert – und mir (als Reviewer) bei einer anderen Studie zur Vagusnerv-Stimulation (single-arm!) die Möglichkeit zu einem kritischen Kommentar eingeräumt. Ein wesentlicher Einwand mehrerer Reviewer war, dass unsere Studie den Verdacht nahelegen könnte, dass die Vagusnerv-Stimulation gar nicht wirksam sei – in der Tat, genau diesem Verdacht würden wir gerne nachgehen! Wie es scheint, muss man in der Medizin neuerdings die Nichtwirksamkeit einer Therapie gegen tief sitzende Glaubensüberzeugungen nachweisen (was logisch unmöglich ist); der Hinweis auf den fehlenden Nachweis der Wirksamkeit verhallt dagegen ungehört – trotz hoher Kosten und Nebenwirkungen.

Ich sehe die Entwicklungstendenz in der Medizin negativ. Es gibt hier und da medizininterne Kritik – aber ich traue dem Medizinforschungsbetrieb nicht zu, sich aus eigener Kraft noch einmal neu zum Ideal konsequenter Wissenschaftlichkeit zu bekennen. Hier sind die Politik und die großen Forschungsförderinstitutionen (BMBF, DFG etc.) dringend gefragt. Ärzte müssen sich endlich wieder auf das unabhängige, wissenschaftlich fundierte Urteil von Experten verlassen können.

Bevor ich also bereit bin, über Reproduzierbarkeit zu diskutieren, würde ich gerne erst einmal wissenschaftlich überzeugende Erstnachweise eines Effektes sehen. Es ist viel schwieriger, belastbares und klinisch nützliches neues Wissen zu generieren als sich das Viele im Wissenschaftsbetrieb angesichts der täglichen “wissenschaftlichen” Publikationsflut vorstellen.

 

Quellen:

ad (1) Hoppe , C., Hoffmann, J. & Elger, C.E. (2005). Immediate effects of intermittent high-amplitude vagus nerve stimulation ON phases on visuomotor reactions. Neurology, Psychiatry & Brain Research, 11, 179-184.

ad (2)

Hoppe, C. & Elger, C. E. (2011). Depression in epilepsy: a critical review from a clinical perspective. Nature Reviews Neurology 7, 462-472.

Hoppe, C. (2012). Vagus nerve stimulation: urgent need for the critical reappraisal of clinical utility [invited editorial comment]. Seizure 22:83-84. http://dx.doi.org/10.1016/j.seizure.2012.10.001

ad (3) Hoppe, C., Wagner, L., Hoffmann, J.M., Lehe, M.v., Elger, C.E. (in press). Comprehensive long-term outcome of best drug treatment with or without add-on vagus nerve stimulation for epilepsy: a retrospective matched pairs case-control study. Seizure.

 

Avatar-Foto

Veröffentlicht von

Geboren 1967 in Emsdetten/Westfalen. Diplom kath. Theologie 1993, Psychologie 1997, beides an der Universität in Bonn. Nach einem Jahr am Leipziger Max-Planck-Institut für neuropsychologische Forschung (1997-98) bin ich seit Oktober 1998 klinischer Neuropsychologe an der Universitätsklinik für Epileptologie in Bonn. Ich wurde an der Universität Bielefeld promoviert (2004) und habe mich 2015 an der Medizinischen Fakultät der Universität Bonn habilitiert (Venia legendi für das Fach Neuropsychologie). Klinisch bin ich seit vielen Jahren für den kinderneuropsychologischen Bereich unserer Klinik zuständig; mit erwachsenen Patientinnen und Patienten, die von einer schwerbehandelbaren Epilepsie oder von psychogenen nichtepileptischen Anfällen betroffen sind, führe ich häufig Gespräche zur Krankheitsbewältigung. Meine Schwerpunkte in Forschung und Lehre liegen in den Bereichen klinische Neuropsychologie (z.B. postoperativer kognitiver Outcome nach Epilepsiechirurgie im Kindesalter) und Verhaltensmedizin (z.B. Depression bei Epilepsie, Anfallsdokumentation). Ich habe mich immer wieder intensiv mit den philosophischen und theologischen Implikationen der modernen Hirnforschung beschäftigt (vgl. mein früheres Blog WIRKLICHKEIT Theologie & Hirnforschung), eine Thematik, die auch heute noch stark in meine Lehrveranstaltungen sowie meine öffentliche Vortragstätigkeit einfließt.

3 Kommentare

  1. Hallo Herr Hoppe,

    Sie merken in Ihrem Artikel an:

    “Tritt keine Verbesserung ein, wird die erfolgte Maßnahme ebenfalls nicht zurückgenommen, sondern – weil es dem Patienten ja immer noch schlecht geht – auf jeden Fall beibehalten. So kommt es bei chronischen Krankheiten über die Jahre stets zu einer immer weiteren Erhöhung der Medikation (Anzahl und Dosis der Medikamente) trotz unveränderter Symptomatik.”

    Nun, ich kann mir nicht vorstellen, dass die Ärzte allesamt so ein Verhalten an den Tag legen, zumal so eine Behandlungsmethode auch noch unlogisch ist. Ein Arzt wird doch wohl hoffentlich selbstkritisch erkennen, wenn eine bestimmte medikamentöse Behandlung keine Genesung bringt, und die Behandlung dann unverzüglich mit dem Medikament beenden, bzw. ein anderes oder gar keines mehr verordnen/verabreichen – meinen Sie nicht? Alles andere wäre, wie schon erwähnt, doch auch unlogisch und auch schon grob fahrlässig.

  2. @Mo

    Bei allen chronischen Erkrankungen steigt über die Jahre der Medikamentenbedarf bei allenfalls gleich bleibender, meist jedoch sich verschlechternder Symptomatik.

    Die pharmakologische Standarderklärung ist: Toleranzentwicklung, d.h. die Dosen müssen erhöht werden, um weiterhin die anfänglichen guten Wirkungen erzielen zu können. Dies trifft auf viele Erkrankungen sicher zu (z.B. M. Parkinson).

    Bei Erkrankungen mit statistisch deutlich schwankender Symptomatik stehen dagegen heute dem Arzt keine Hilfsmittel zur Verfügung, um zuverlässig einzuschätzen, ob tatsächlich oder nur scheinbar eine Verschlimmerung vorliegt und ob tatsächlich oder nur scheinbar durch eine veränderte Medikation eine Verbesserung erreicht wurde. Hier greift m.E. häufig der von mir erwähnte und von Ihnen zitierte – höchst unlogische! – Mechanismus.

    Statistische Fallstricke gibt es hier (wie im richtigen Leben) überall!

  3. ich bin selber Statistiker und kann sagen, dass die Situation noch viel viel schlimmer ist.

    ich empfehle Artikel von Doug Altman, z.B. The Scandal of Poor Statistics in Medicine.
    er hat viele andere Artikel dazu geschrieben oder Ioannidis und viele viele andere.

    Die Mediziner sind nicht daran interessiert die Situation zu ändern.

    Da braucht es was anderes…