Evidenzbasiert entscheiden 4: Statistische Vorurteile
Alle Teile der kurzen Serie: Teil 1, Teil 2, Teil 3, Teil 4 (die Links werden mit der Zeit nachgetragen)
Willkommen beim vierten und letzten Teil meiner Mini-Serie dazu, was es an mathematischen Werkzeugen dafür gibt, evidenzbasierte Entscheidungen und Einschätzungen zu treffen! In Teil 1 war es um die Grundbegriffe gegangen (meine “Ernstnehm-Werte” oder Wahrscheinlichkeiten) und in Teil 2 insbesondere um den Satz von Bayes als Möglichkeit, mit solchen Ernstnehm-Werten zu rechnen. In Teil 3 hatte ich eine Reihe von Querverbindungen gezogen: Zu Ockhams Rasiermesser beispielsweise, zu Sagans “außergewöhnliche Behauptungen sollten außergewöhnlich gut belegt sein” und der Frage, wie man die Expertise von Expert*innen einschätzen kann. In diesem letzten Teil soll es um die Beziehung der hier vorgestellten Methodik zur “klassischen” Statistik gehen, mit ihren Signifikanztests und Nullhypothesen.
Bayes vs. statistische Vorurteile
Ich hatte in einem früheren Blogbeitrag (zu einem [potenziellen] Missverständnis im Verhältnis von Pandemie-Schutzmaßnahmen und evidenzbasierter Medizin) bereits darauf hingewiesen, dass herkömmliche statistische Tests in der Regel eine Asymmetrie einführen, wenn es um die Beurteilung konkurrierender Aussagen geht. Eine der Aussagen wird zur “Nullhypothese” deklariert und bevorzugt behandelt. Die zweite Aussage bzw. Hypothese muss den Test bestehen, wenn die Nullhypothese zu ihren Gunsten verworfen werden soll. In bestimmten Situationen ist das eine sinnvolle Setzung – das Standardbeispiel in der evidenzbasierten Medizin: die Nullhypothese ist,dass eine neue Therapie nicht besser wirkt als ein Placebo, oder aber als die bereits etablierte, konventionelle Therapie. Die Hürde dafür, den Status Quo zu Gunsten der neuen (experimentellen) Therapie umzuwerfen möchte man mit gutem Grund hoch legen.
In anderen Situationen – und dazu gehörte die frühe Pandemie-Phase – ist die Ungleichbehandlung problematisch. Dort gibt es rein von der Situation her keine etablierte Option, der gegenüber es sinnvoll wäre, eine neue Option zu benachteiligen. Stattdessen sind wir in einer Situation, in der alle Handlungsoptionen neu und unsicher nicht – vom Nichtstun bis zum Treffen bestimmter Maßnahmen. Für solch eine Situation ist ein Verfahren, dass die Auswahl einer (dann statistisch bevorteilten) Nullhypothese voraussetzt, nicht gut geeignet. Solch eine Auswahl würde statistische Vorurteile einbringen, die durch die Sachlage schlicht nicht gerechtfertigt sind.
Günstigerweise haben wir ja aber bereits eine Möglichkeit kennengelernt, in solchen Situationen verschiedene Optionen systematisch und unter Einbeziehung von Daten gegeneinander abzuwägen: Bayessche Modellvergleiche.
Frequentistische Interpretation von Wahrscheinlichkeiten
Einen wichtigen Unterschied zwischen den beiden Methoden möchte ich an einem einfachen (und bewusst komplett unpolitischen) Beispiel zeigen. Angenommen, Sie frönten gerne dem Glückspiel. Allerdings sind sie mathematischer Purist, und konzentrieren sich daher auf das einfachstmögliche Glückspiel: den wiederholten Münzwurf. Ihr Stammcasino hat dieses Spiel zu einer Kunstform erhoben. Wie der Croupier seinen Münzbecher schwenkt und schüttelt, ist reinste (wenn auch vom Rhytmus dominierte) Musik. Allerdings hat Ihnen eine Bekannte einen schrecklichen Verdacht mitgeteilt. Die Münze, die dort geworfen würde, sei gar nicht symmetrisch, wie man es für die 50:50-Wahrscheinlichkeit für Kopf-oder-Zahl in jenem Spiel annimmt. Stattdessen fiele jene Münze mit einer Wahrscheinlichkeit von 60 Prozent so, dass Kopf oben läge, und nur in 40% der Fälle läge Zahl oben.
Ich hatte Wahrscheinlichkeiten in dieser Serie als “Ernstnehm-Werte” eingeführt, auch wenn wir dann recht bald gesehen haben, dass jene Ernstnehm-Werte die Eigenschaften von dem haben, was in der Mathematik “Wahrscheinlichkeiten” heißt. Die herkömmliche “frequentistische” Deutung, die Wahrscheinlichkeiten mit relativen Häufigkeiten verknüpft, kam deswegen in diesem Text noch gar nicht vor. Wahrscheinlichkeit ist der frequentistischen Deutung nach ein Maß für die erwartbare relative Häufigkeit bestimmter häufig wiederholter Experimente. Im Falle des wiederholten Münzwurfs, wo wieder und wieder eine Münze geworfen und das Ergebnis (Kopf oder Zahl) dokumentiert wird, heißt das: Dass die Wahrscheinlichkeit für das Ergebnis “Kopf” 50% oder \(P=0.5\) beträgt heißt, dass ich bei einer großen Anzahl Wiederholungen erwarten kann, dass 50% der Ergebnisse “Kopf” lauten.
Das “erwarten” hat es sich in diesem Satz allerdings in sich: Eine mathematisch genauere Beschreibung würde klarstellen, dass “erwarten” natürlich keineswegs heißt, dass die Ergebnisse sich immer und exakt 50:50 verteilen: halb Zahl, halb Kopf. Im Gegenteil ist eine wichtige Eigenschaft der Wahrscheinlichkeitsverteilung, um die es an jener Stelle geht, ein Maß dafür, um wieviel der tatsächliche Wert einer solchen Wiederholungs-Serie am Ende typischerweise vom 50:50-Ideal abweicht. Das ist nicht so ganz intuitiv, lässt sich aber mathematisch sinnvoll formulieren: Zwar ist die 50:50-Verteilung mein Erwartungswert. Aber für die Abweichung einer realen Messung von jener Erwartung gibt es ebenfalls einen Erwartungswert, und der ist der Intuition etwas widersprechend nicht gleich Null. Lassen wir diese Komplikationen hier erst einmal beiseite.
Mit Modellvergleich dem Münzwurf-Betrug auf der Spur
Zurück zum fiktiven Szenario: Sie achten in Zukunft bei Ihren Casino-Besuchen genau darauf, wie oft an dem von Ihnen bevorzugten Spieltisch Kopf bzw. Zahl fällt. Dann stellt sich natürlich direkt die Frage, was Sie aus Ihren Beobachtungsdaten überhaupt in sinnvoller Weise schließen können. Im Rahmen dessen, was wir uns in dieser Mini-Serie angeschaut haben, bietet sich ein Modellvergleich an. Wir haben es mit zwei möglichen Erklärungsmodellen zu tun: \(A_1\) sagt aus, die Messergebnisse kämen durch Wurf einer unfairen 60:40-Münze zustande, \(A_2\) sagt, es handle sich um eine faire 50:50-Münze. Das Verhältnis der Ernstnehm-Werte jener zwei Modelle ergibt sich wie oben beschrieben aus dem Satz von Bayes, und zwar haben wir
$$\frac{P(A_1|D)}{P(A_2|D)} = \frac{P(D|A_1)\cdot P(A_1)}{P(D|A_2)\cdot P(A_2)}.$$
Welche a-priori-Wahrscheinlichkeiten sollen wir den beiden Erklärungsmodellen zuordnen? Das ist eine Aussage zu unserem Vorwissen. Wenn wir vor unserer Messung komplett offenlassen wollen, welches Modell richtig ist, dann könnten wir \(P(A_1)=P(A_2)=0.5\) ansetzen (was sich dann gleich herauskürzen würde). Wenn wir bereits vorab Grund zu der Annahme haben, dass die Casino-Betreiber es mit der Ehrlichkeit nicht so genau nehmen, müssten wir dagegen einen geeigneten Wert \(P(A_1)>P(A_2)\) wählen. Wenn wir umgekehrt vorab Belege für die Ehrlichkeit der Betreiber haben, wählen wir ein geeignetes \(P(A_1)<P(A_2)\). Bleiben wir der Einfachheit halber einmal bei dem Fall \(P(A_1)=P(A_2)=0.5\): Wir legen uns vorab nicht fest, sondern sind bewusst neutral. Vielleicht werden wir beschummelt, vielleicht aber auch nicht.
Das Ernstnehm-Werte-Verhältnis hängt unter dieser Voraussetzung dann lediglich noch davon ab, mit welcher Wahrscheinlichkeit unsere beiden Erklärungsmodelle die tatsächlich beobachteten Daten erzeugen, nämlich
$$\frac{P(A_1|D)}{P(A_2|D)} = \frac{P(D|A_1)}{P(D|A_2)}.$$
Das wiederum lässt sich direkt ausrechnen: Die Wahrscheinlichkeit, mit einer fairen Münze eine ganz bestimmte geordnete Folge von Kopf-und-Zahl zu bekommen, ist für jede Folge der Länge \(n\) gerade \((0.5)^n\). (Das “geordnet” soll dabei heißen, dass die Reihenfolge für unsere Überlegungen wichtig ist. Kopf-Zahl-Kopf ist für uns zumindest konzeptionell etwas anderes als Kopf-Kopf-Zahl. Letztlich ergibt eine Rechnung, in der man die Reihenfolge vernachlässigt, aber dasselbe Ergebnis.)
Für unsere spezifische unfaire Münze ist die Wahrscheinlichkeit solch einer geordneten Folge dagegen \((0.6)^k(0.4)^{n-k}\), mit \(k\) der Anzahl von Kopf-Ergebnissen in jener Folge. In diesem Diagramm hier habe ich das Ernstnehm-Werte-Verhältnis als Funktion einerseits der Gesamtzahl an Würfen, andererseits der Zahl an Würfen die “Kopf” zeigen, dargestellt:
Die schwarzen Geraden zeigen konstante Modellvergleich-Ernstnehmwert-Verhältnisse an. Schauen wir uns als erstes die (unten links) mit “1” gekennzeichnete Linie an, auf der all jene Kombinationen aus Gesamt-Wurfzahl und Kopf-Ergebniszahl liegen, für die beide Modelle, 60:40 und 50:50, exakt gleich wahrscheinlich sind. Wie man sieht, verläuft diese Einser-Linie etwas oberhalb der magentafarbenen Linie, bei der exakt die Hälfte der Münzwürfe “Kopf” ergeben hat. Wenn wir hundert Mal die Münze werfen, dann ist die 60:40-Erklärung ab 56 Kopf-Würfen wahrscheinlicher als die 50:50-Erklärung. Ab 61 Kopf-Würfen ist sie sogar mehr als zehn Mal wahrscheinlicher.
Klassische statistische Tests für den Münzbetrug
Die klassischen statistischen Tests gehen an die Situation anders heran. Standardmäßig ist dort die Ausgangs-Annahme, die “Nullhypothese”, dass es keinen Unterschied in der Kopf-oder-Zahl-Wahrscheinlichkeit gibt. Wenn wir nachweisen wollen, ob alternativ die Hypothese “es handelt sich um eine unfaire 60:40-Münze” zutrifft, wird das Ergebnis der Test-Münzwurfreihe wie folgt ausgewertet. Für jedes Ergebnis können wir uns fragen: Wie hoch ist die Wahrscheinlichkeit, jenes Ergebnis mit einer 50:50-Münze zu erhalten? Ist die Antwort für eine bestimmte Anzahl von Kopf-Würfen bei gegebener Gesamt-Wurfzahl N “weniger als 5%”, dann gilt der Unterschied als “signifikant”, und das ist ein Grund die Nullhypothese zu verwerfen und die Alternativ-Hypothese anzunehmen. Ist die Antwort sogar “weniger als 1%” dann gilt die Abweichung von der Gleichverteilung Kopf-Zahl als “hochsignifikant”. Und ist die Antwort “weniger als 0,000 057%” dann sind wir bei einem sogenannten fünf-Sigma-Standard, wie er in der Teilchenphysik üblich ist.
Ein Nachteil dieses Verfahrens im Vergleich zu dem Bayes-Verhältnis ist, dass die Hypothese, die wir eigentlich testen wollen, in der Argumentation gar nicht vorkommt. Wir testen alleine auf Basis der Nullhypothese. Das Verfahren unterscheidet nicht zwischen einer unfairen 60:40-Münze und einer unfairen 70:30-Münze. Entscheidend ist alleine die Nullhypothese, genauer: die Wahrscheinlichkeitsverteilung der Nullhypothese.
Die Unterschiede bei der Herangehensweise führen zu Unterschieden in der Bewertung. Es gibt eine Reihe von Fällen, in denen die Alternativ-Hypothese dem Bayesschen Modellvergleich nach deutlich wahrscheinlicher ist als die Nullhypothese, aber die Nullhypothese vom klassischen Testverfahren trotzdem nicht verworfen wird. Das ist in dieser Abbildung zu sehen:
Dargestellt ist wieder auf der x-Achse die Gesamtzahl an Münzwürfen, auf der y-Achse die Zahl der Würfe, die “Kopf” ergeben haben. Die Konturlinien zeigen wieder das Verhältnis der Ernstnehm-Werte für das 60:40-Modell und das 50:50-Modell. Die Farben zeigen Signifikanz-Level an, und zwar nur für Abweichungen nach oben (ungewöhnlich viele, aber nicht ungewöhnlich wenige Kopf-Würfe): Grau ist nicht-signifikant, hellgrün ist signifikant mit \(0.01 \le p<0.05\) und dunkelgrün hochsignifikant, mit \(p<0.01\).
Besonders interessant ist der Bereich zwischen der Konturlinie 1 (60:40-Modell genau so wahrscheinlich wie 50:50-Modell) bis etwas oberhalb der Konturlinie 2. Dort befinden sich die Situationen, wo das 60:40-Modell der Ernstnehm-Wert-Formel nach die wahrscheinlichere Erklärung für die Münzwurf-Reihe ist als das 50:50-Modell, wo die klassische Statistik aber entsprechend den üblichen Signifikanz-Level das 50:50-Modell bevorzugen würde.
Ein Zahlenbeispiel: Kommen bei 80 Würfen 47 davon auf “Kopf” zu liegen, dann ist der Unterschied nicht signifikant (\(p=0.073\)). Aber der Ernstnehm-Wert-Formel nach ist das 60:40-Modell fünf Mal wahrscheinlicher als das 50:50-Modell. Hat man sich sogar entschieden, nur bei hochsignifikantem Unterschied das 50:50-Modell aufzugeben, dann behält man das 50:50-Modell selbst bei 50 Kopf-Ergebnissen aus 80 Würfen bei. Obwohl das 60:40-Modell laut Ernstnehm-Wert-Formel 11 Mal wahrscheinlicher ist als das 50:50-Modell.
Wo Vorurteile Methode haben
Bei den üblichen Signifikanzüberlegungen begünstigt die Entscheidungsfindung die Nullhypothese gegenüber der alternativen Hypothese. Es gibt Situationen, in denen diese zusätzliche Hürde gewollt und sinnvoll ist. Ich hatte das in meinem Blogbeitrag zum evidenzbasierten Umgang mit der Pandemie beschrieben: Überall dort, wo der Status Quo ein großes Gewicht gegenüber neuen Hypothesen hat, ist es sinnvoll, die Hürde, den Status Quo zu erweitern, hoch zu legen. Das gilt für neue Therapien, die Teil des Kanons akzeptierter Behandlungsformen werden wollen, ebenso wie für neue wissenschaftliche Erkenntnisse, die einen seinerseits genau so streng geprüften Wissenskorpus erweitern sollen.
Problematisch wird die Diskrepanz in Situationen, in denen es keine solche Asymmetrie der einen Hypothese gegenüber der anderen gibt. In solchen Situationen, wo keine der beiden bewerteten Hypothesen der anderen vorzuziehen ist, ist nicht angemessen, die Symmetrie beim statistischen Test zu brechen. An dieser Stelle ist die bayesianische Betrachtung besser geeignete: Wenn man vorab eine der Hypothesen vorzieht, kann man das durch geeignete Wahl der a-priori-Wahrscheinlichkeiten ausdrücken. Ungleichbehandlung muss man dort explizit angeben – und dann natürlich auch begründen. Die frequentistische Statistik erlaubt so etwas wie gedankenlose Ungleichbehandlung: Man folgt schlicht dem Rezept, und wird dabei nirgends gezwungen, sich Gedanken darüber machen, ob das Rezept für den aktuellen Anwendungsfall überhaupt sinnvoll ist.
Nehmen wir ein politisch relevantes Beispiel: Wenn wir anhand der Statistik entscheiden wollen, ob bei einer bestimmten Serie von Polizeikontrollen racial profiling vorlag, in diesem konkreten Fall soll das heißen: Ob Personen mit als fremd gelesenen Erscheinungsbild signifikant häufiger kontrolliert wurden, dann macht es, siehe das Münzwurfbeispiel, einen grundlegenden Unterschied, ob wir einen herkömmlichen Signifikanztest heranziehen oder oder das Ernstnehm-Faktoren-Verhältnis. Wenn ersteres, dann geben wir der Nullhypothese, und die wäre in jener Situation konventioneller Weise “kein Unterschied = kein racial profiling”, einen Vertrauensvorschuss. Tatsächlich sind die üblichen statistischen Konventionen ganz generell so gestrickt, dass sie Nicht-Diskriminierung (der Nullhypothese “kein Unterschied zwischen Fallklasse A und Fallklasse B” einen Vorteil verschaffen. Das ist nichts, was der Wissenschaft in irgendeiner Weise innewohnen würde. Welche Kriterien für Entscheidungen dieser Art heranziehen, ist eine Konvention – die eigentlich im gesellschaftlichen Konsens getroffen werden müsste. Der bayesche Modellvergleich erlaubt es dagegen, die beiden Möglichkeiten a priori gleich zu behandeln.
Fazit: Evidenzbasiert einschätzen und entscheiden
Es gibt in der Wissenschaft verschiedene Arten von Werkzeugen um unser Zutrauen, unsere Ernstnehm-Werte für Erklärungsmodelle, Hypothesen, Aussagen zu quantifizieren. Was es nicht gibt, ist ein Automatismus: Wenn wir Entscheidungen treffen, dann geht das selbst evidenzbasiert grundlegend nicht mit einem simplen “follow the science”. Wir brauchen Konventionen dafür, wie wir von der Modellierung unserer Annahmen und unserer Handlungsalternativen zu einer Entscheidung kommen wollen. Erst dann können wir die (gewählten) statistischen Methoden auswählen. Den Unterschied zwischen Situationen mit eingebauter Schieflage und solchen ohne hatte ich im Laufe dieser Serie mehrmals erwähnt, und kann auch jetzt nur wiederholen: Für Situationen, in denen eine Präferenz für den Status quo gut begründet werden kann – Standardbeispiel: neue experimentelle Therapie im Verglich zu den bereits getesteten konventionellen Therapien – gibt es eine Reihe von Standardverfahren (entsprechende Signifikanztests und dazu geeignete Meta-Analysen). Auf Situationen, in denen es vorab keine klare Präferenz gibt, lassen sich die in dieser Mini-Serie vorgestellten Modellvergleiche anwenden. Insbesondere können wir unterschiedliche Erklärungsmodelle miteinander vergleichen (mit denselben uns vorliegenden Daten) und auf Basis des Ergebnisses eine Entscheidung treffen. Auch die Konsequenzen von Maßnahmen können wir mit Hilfe solcher Modellvergleiche beurteilen – in Situationen jenseits eines gesicherten “Status quo”. Wir können die Wahrscheinlichkeiten für die verschiedenen möglichen Szenarien mit Hilfe geeigneter Kennzahlen für Kosten bzw. Schaden gewichten und erhalten so eine evidenzbasierte Risikoabschätzung. Und, last but not least: Eine Ebene höher könnten wir Expert*innenaussagen beurteilen um evidenzbasiert zu ermitteln, von wem wir uns in Zukunft beraten lassen sollen.
In der bisherigen Diskussion um evidenzbasierten Umgang mit der Pandemie – sowohl Rückblickend als auch für die Zukunft – ist mir leider noch keiner dieser Aspekte untergekommen. Aber vielleicht kommt das ja noch. Zumindest falls für Rück- oder Vorausblick dann doch eine entsprechende Kommission eingesetzt wird, dürften die entsprechenden Wissenschaftler*innen an Überlegungen dieser Art nicht vorbeikommen (wenn sie Ihre Arbeit vernünftig machen – was ich natürlich sehr hoffe). Eigentlich wäre es die Aufgabe von Wissenschaftsjournalismus, an dieser Stelle schon einmal die entsprechenden Grundlagen klarzustellen, und gerade weil Methoden dieser Art (noch) kein Allgemeinwissen sind, zu erklären, was es denn nun heißt, in Situationen wie bei der Pandemie evidenzbasiert einzuschätzen und zu entscheiden.
Alle Teile der kurzen Serie: Teil 1, Teil 2, Teil 3, Teil 4 (die Links werden mit der Zeit nachgetragen)
Eine angenehm zu lesende und ausreichend umfassende Übersicht, thx.
btw: bei einem der ersten Teile erkannte die Mustererkennung im Augenwinkel ein ‘die Links werden der Zeit nachgetragen’ und es bildete sich spontan die Wertung ‘^^wat ne Rennerei’ (wg Julchen) 😉
Danke für die 4 Artikel!
Jetzt muss man das Ganze anwenden! So für die Denksportbefähigten und -interessierten ihrer Leser. Denn reine Theorie bringt ja nix, soll nur Überlegenheit vorgaukeln bei dem der Sie kennt und vorgibt.
Wie hoch ist die Wahrscheinlichkeit, dass zwei nebeneinander stehende Wolkenkratzer kerzengerade nach unten zusammenbrechen, wenn asymmetrisch seitlich 2 Flugzeuge hineinfliegen?
Eine Frage die jeder Baustatik-Student spätestens nach dem Grundstudium beantworten können sollte oder jedes Kind das mal nen Jenga Turm gebaut hat.
Zu den lezten 4 Jahren könnte man noch deutlich mehr Wahrscheinlichkeitsfragen stellen als zu imaginären einstürzenden Türmen
Auch für die Bayessche Formel gilt natürlich: Garbage in, garbage out. Wer auf dem Niveau von Jenga-Türmen argumentiert, wo es um die Folgen u.a. von brennendem Flugzeugtreibstoff geht, demonstriert ja sehr direkt das “Garbage in”. Letztlich können die Bayes-Formeln, wenn man denn den Aufwand betreibt, sie richtig anzuwenden (was das Aufstellen entsprechender Modelle zur Daten-Generierung einschließt) im Gegenteil dabei helfen, rein polemischen Anwendungen von via Bauchgefühl abgeschätzten “Wahrscheinlichkeiten” etwas Solides entgegenzusetzen.