Evidenzbasiert entscheiden 2: Der Satz von Bayes
Alle Teile der kurzen Serie: Teil 1 – Teil 2 – Teil 3 – Teil 4
Evidenzbasiert entscheiden, aber wie? Und was hat ein Geistlicher aus dem 18. Jahrhundert namens Bayes damit zu tun? In Teil 1 der Mini-Serie hatten wir uns die Grundlagen von dem angeschaut, was ich dort “Ernstnehm-Werte” genannt hatte. Es ging um den Versuch, Aussagen Zahlenwerte zwischen 0 und 1 zuzuordnen und auf diese Weise auszudrücken, wie ernst ich jene Aussagen nehme, oder synonym: wie wahrscheinich ich es einschätze, dass die betreffende Aussage wahr ist. Auch einige Eigenschaften jener Ernstnehm-Werte bzw. Wahrscheinlichkeiten hatten wir uns angeschaut: Wann es Sinn ergibt, solche Werte zu addieren oder miteinander malzunehmen beispielsweise. Und, ganz wichtig: Wir hatten uns bedingte Wahrscheinlichkeiten angeschaut, also Ausdrücke wie \(P(A|D)\) mit der Bedeutung des Ernstnehm-Werts, den wir der Aussage \(A\) zuordnen unter der Voraussetzung, dass wir die Daten (d.h. die zusätzlichen Informationen) \(D\) vorliegen haben. Solche bedingten Wahrscheinlichkeiten sind die Essenz evidenzbasierten Argumentierens: aus den vorliegenden Daten bzw. Informationen systematisch zu schließen, was Sache ist.
Die Rechnungen mit Ernstnehm-Werten, die wir in jenem ersten Teil durchgeführt hatten, betrafen jeweils sehr einfache Situationen: ideale Münzwürfe und Würfel-Würfe. Dass wir auf jener Basis überhaupt zu quantitativen Aussagen gekommen waren, war der Symmetrie zu verdanken, oder anders gesagt der Gleichberechtigung: die Annahme, dass es beispielsweise beim Münzwurf keinen Grund gibt, das Ergebnis “Kopf” dem Ergebnis “Zahl” vorzuziehen, führte uns dazu, dass wir den beiden Aussagen “Münze zeigt anschließend ‘Kopf'” und “Münze zeigt anschließend ‘Zahl'” denselben Ernstnehm-Wert zugeordnet hatten; durch die Summeneigenschaft und die Annahme, dass die Münze (von ultra-seltenen Ausnahmen abgesehen) nach Ausführen des Wurfes auf alle Fälle eines von beiden zeigen wird, Kopf oder Zahl, kamen wir darauf, dass jener Ernstnehm-Wert gerade 1/2 ist.
Für praktische Zwecke müssen wir Möglichkeiten finden, bedingte Wahrscheinlichkeiten auch dort zu bestimmen, wo keine solche Symmetrie vorliegt. Um ein für diesen Zweck sehr wichtiges Werkzeug geht es im folgenden: den Satz von Bayes.
Benannt ist der Satz nach dem Mathematiker und presbyterianischen Geistlichen Thomas Bayes (1701–1761). Dass es für das einzige im Umlauf befindliche Portrait von Bayes, hier gezeigt, eine rege Diskussion um dessen Echtheit gab (wahrscheinlich zeigt das Bild gar nicht Bayes) passt in diesem Zusammenhang sehr gut.
Der Satz von Bayes
Für unsere Aussage \(A\) und Daten \(D\) (oder, wie wir gesehen haben, äquivalent für zwei beliebige Aussagen \(A\) und \(D\)) lautet der Satz von Bayes
$$P(A|D) = \frac{P(D|A)\cdot P(A)}{P(D)}.$$
Beweise für diesen Satz findet man z.B. auf Wikipedia oder in dem bereits erwähnten Honerkamp-Blogbeitrag. Die Grundaussage lässt sich recht schnell begreifen, wenn man einfach das \(P(D)\) auf die andere Seite bringt. Dann steht dort
$$P(A|D)\cdot P(D) = P(D|A)\cdot P(A)$$
und das wiederum ist ja auf beiden Seiten derselbe Ernstnehm-Wert, nämlich jener von \(P(A\wedge D).\) In Worten kann man das wie folgt ausdrücken: Der Ernstnehm-Wert dafür, dass sowohl \(A\) als auch \(D\) zutreffen, lässt sich auf zwei äquivalente Weisen schreiben. Es ist einerseits die unabhängig von \(A\) abgeschätzte Wahrscheinlichkeit, dass \(D\) zutrifft, malgenommen mit der bedingten Wahrscheinlichkeit dafür, dass \(A\) zutrifft wenn bereits bekannt ist, dass \(D\) zutrifft. Andererseits kann ich die Argumentation genau umkehren und den Ernstnehm-Wert für beide Aussagen gleichzeitig schreiben als unabhängig von \(D\) abgeschätzte Wahrscheinlichkeit, dass \(A\) zutrifft, malgenommen mit der bedingten Wahrscheinlichkeit dafür, dass \(D\) zutrifft wenn bereits bekannt ist, dass \(A\) zutrifft. Wenn Sie das plausibel finden: gut so! Wenn Sie an jener Stelle nachzudenken beginnen, ob denn das mit der Unabhängigkeit von Aussagen (als Voraussetzung für die Produktbildung) so einfach abzuhaken ist wie in der Kurzversion des Beweises, dann sollten Sie den oben genannten Links zu den Beweisen folgen und mindestens einen davon genauer nachvollziehen.
Bayes und Evidenzbasiertheit
Formulieren wir die Bedeutung der Wahrscheinlichkeiten und bedingten Wahrscheinlichkeiten, die im Satz von Bayes vorkommen, einmal direkt für denjenigen Fall aus, der uns interessiert: Die Anwendung des Bayesschen Satzes auf eine Situation, in der wir anhand von Daten \(D\) zu einer evidenzbasierten Einschätzung für die Aussage \(A\) gelangen wollen.
Das \(P(A|D)\) auf der linken Seite ist in diesem Falle die (bedingte) Wahrscheinlichkeit, die uns hier als Ergebnis interessiert, in Worten: Wie ernst sollten wir die Aussage \(A\) nehmen (oder: wie wahrscheinlich ist es, dass die Aussage zutrifft), wenn wir die Daten \(D\) gegeben haben?
Auf der rechten Seite ist das \(P(A)\) die von den Daten unabhängige Wahrscheinlichkeit, dass die Aussage zutrifft. Diese Wahrscheinlichkeit lässt sich in der Praxis abschätzen, indem wir uns fragen, wie hoch wir \(P(A)\) denn eingeschätzt hätten (oder sogar haben), bevor uns die Daten \(D\) vorlagen: bevor ich mein Experiment oder meine Messung oder meine Beobachtung durchgeführt habe, die mir \(D\) überhaupt geliefert. Nach diesem “bevor” heißt jener Wert auch “a-priori-Wahrscheinlichkeit”, das \(P(A|D)\) als Einschätzung nach Erlangen der Daten im Kontrast dazu “a-posteriori-Wahrscheinlichkeit”. Die a-priori-Wahrscheinlichkeiten hängen von meinem Vorwissen ab. Manchmal wird jenes Vorwissen daher explizit mit in die Formel eingefügt. Bezeichne ich das Vorwissen mit \(V\), dann betrachte ich \(P(A|V)\) und nicht allgemeiner \(P(A)\), und auch auf der linken Seite steht \(P(A|D,V)\).
Wichtig ist, dass im Satz von Bayes auf der rechten Seite \(P(D|A)\) steht. Das ist die Wahrscheinlichkeit, unter der Voraussetzung dass meine Aussage \(A\) stimmt, die tatsächlich gemessenen Daten \(D\) zu erhalten. In diesem Ausdruck stecken wichtige Vorhersagen, die mein Modell über die Wirklichkeit macht – und anhand derer das Modell das tatsächlich Beobachtete, die Daten, erklären kann. Das ist ein ganz zentraler Aspekt: Um abschätzen zu können, wie wahrscheinlich meine Aussage \(A\) oder, allgemeiner, mein Erklärungsmodell \(A\), bei gegebenen Daten \(D\) ist, muss ich angeben, wie wahrscheinlich es ist, die Daten \(D\) zu erhalten unter der Voraussetzung, dass meine Aussage zutrifft bzw. dass mein Erklärungsmodell die Wirklichkeit zutreffend beschreibt.
Insbesondere bei physikalischen Erklärungsmodellen muss man, um \(P(D|A)\) anzugeben, die üblichen Messunsicherheiten berücksichtigen. Wenn mein Modell etwa für eine bestimmte Energie den Wert E=13,6 eV voraussagt (wer sich auskennt, weiß, um welche Art von Modell es geht) und meine Messung dann E=13,6001 eV ergibt, soll das ja kein Grund sein, das Modell zu verwerfen. Im Gegenteil spricht es ja für das Modell, den Wert so relativ genau vorherzusagen; Abweichungen vom wahren Messwert gibt es bei realen Messungen unvermeidlicher Weise immer. Das Modell sollte also tunlichst auch eine Beschreibung der erwarteten Messfehler enthalten. Häufig geschieht das in der Form, dass eine allgemeine Annahme gemacht wird, dass z.B. die realen Messwerte mit einer Gaußschen Normalverteilung um den wahren Messwert streuen. Dass man als Physiker*in gezwungen wird, sich explizit auch über jenen Aspekt der Wirklichkeitsbeschreibung Gedanken zu machen und Messfehler zu quantifizieren, wenn man die Bayes-Formel anwenden wird, ist aus meiner Sicht ein nicht zu unterschätzender Vorteil.
Dann ist da noch das \(P(D)\), und das ist deutlich schwieriger abzuschätzen: Die Wahrscheinlichkeit, dass mein Experiment/meine Beobachtung die Daten \(D\) ergibt, ohne irgendwelche Annahmen über die Wahrscheinlichkeit meines Modells \(A\). Um das abzuschätzen, müsste ich strenggenommen die Gesamtheit aller möglichen konkurrierenden Modelle für die betreffende Situation formulieren, dann jeweils ableiten, wie wahrscheinlich die Daten jedem Modell gemäß sind, und all jene Wahrscheinlichkeiten aufaddieren.
Modellvergleiche mit Bayes
Die gute Nachricht zu dem vertrackten \(P(D)\) ist: Für eine besonders wichtige Anwendung, nämlich den Vergleich zweier Erklärungsmodelle \(A_1\) und \(A_2\), muss man \(P(D)\) überhaupt nicht kennen. Will ich wissen, welches der Modelle wahrscheinlicher ist, gegeben meine Daten, dann bilde ich das Verhältnis der Wahrscheinlichkeiten \(P(A_1|D)\) und \(P(A|D)\). Der obigen Formel nach ist das
$$\frac{P(A_1|D)}{P(A_2|D)} = \frac{P(D|A_1)\cdot P(A_1)}{P(D|A_2)\cdot P(A_2)},$$
und das heißt insbesondere: der nicht so einfach fassbare Term \(P(D)\) hat sich dabei komplett weggekürzt und wird für den Modellvergleich nicht benötigt.
Das ist sehr praktisch, weil Modell- bzw. Aussagenvergleiche eine durchaus häufige Anwendung sind wenn es mir darum geht, eine Situation evidenzbasiert einzuschätzen. Überall dort, wo es um Alternativen geht – Maßnahme A anwenden, oder Maßnahme B, oder es ganz lassen – interessiert mich letztlich, welche der Alternativen von den Daten am stärksten gestützt wird. Und das drückt das obige Verhältnis von Ernstnehm-Werten ja paarweise für jedes Paar von alternativen Aussagen oder Erklärungsmodellen aus.
Bevor wir uns in Teil 3 noch einige direkte Konsequenzen des Satzes von Bayes anschauen, möchte ich hier noch erwähnen, dass die Wahrscheinlichkeits-Verhältnisse, die im Modellvergleich die zentrale Rolle spielen, noch in einem anderen Kontext interessant sind: Beim Abschätzen von Risiken.
Risiken evidenzbasiert einschätzen
Mit entsprechender Gewichtung die Bayes-Vergleichsformel nämlich direkt nutzen, um Risiken zu quantifizieren. Bei Risiken, die durch das mögliche Eintreten bestimmter Schadensereignisse entstehen, ist ja nicht nur wichtig, wie groß die Wahrscheinlichkeit eines Schadensereignisses ist, sondern auch, wie hoch der damit zu erwartende Schaden ist. Je höher der mögliche Schaden, desto vorsichtiger möchte man sein. Das Risiko, innerhalb von 10 Jahren EUR 100 zu verlieren, ist selbst dann, wenn jener minimale Schadensfall mit Sicherheit eintritt, so gering, dass wohl niemand entsprechende Gegenmaßnahmen ins Auge fassen würde. Mit einer Wahrscheinlichkeit von 1/1000 einen Verlust von 10 Millionen Euro einzufahren, ist da schon deutlich bedenklicher – und wer mit jenem Risiko konfrontiert ist, tut gut daran, sich dagegen abzusichern.
Ein sehr einfaches Risikomaß ergibt sich entsprechend aus dem Produkt der Schadenssumme und der Ereignis-Wahrscheinlichkeit. Wenn wir beispielsweise die Aussage \(A\) “das Schadensereignis X tritt ein” betracht und die komplementäre Aussage \(\neg A\), “das Schadensereignis X tritt nicht ein”, so dass \(P(A) = 1- P(\neg A)\), und wenn \(S\) die mit dem Schadensereignis assoziierte Schadenssumme ist, \(K\) dagegen die Kosten der Schutzmaßnahmen, dann ist \(S\cdot P(A)\) das Risikomaß für den Schaden, \(K\cdot P(\neg A)\) das entsprechende Maß für die Schutzmaßnahmen, und das Verhältnis
$$R\equiv \frac{S\cdot P(A)}{K\cdot P(\neg A)}$$
ermöglicht eine Abschätzung, ob es sich lohnt, die Schutzmaßnahmen zu treffen: Für \(R\ge 1\) ja, ansonsten nein.
Kleiner Exkurs zur Restunsicherheit
Ein kleiner, aber wichtiger Exkurs, der nichts spezifisch mit der Bayes-Formel zu tun hat sondern sich ganz allgemein ergibt, wenn man Risiko über die Eintrittswahrscheinlichkeit gewichtet mit einer Schadens-Kennzahl beschreibt: in solchen Situationen gibt es direkte Konsequenzen, wann immer wir als Erfahrungswert eine bestimmte Restunsicherheit ansetzen.
Dazu ein Zahlenbeispiel: Angenommen, wir einigen uns für eine bestimmte Art gesellschaftlicher Erklärungsmodelle darauf, dass wir keiner nicht-trivialen Vorhersage über die Entwicklung unserer Gesellschaft einen größeren Wert als \(P=0.99\) zuordnen. Weil Gesellschaften komplex sind und bei solchen Vorhersagen eben immer eine bestimmte Rest-Unsicherheit bleibt. Das würde automatisch bedeuten: Würde eine bestimmte gesellschaftliche Fehlentwicklung einen Schaden verursachen, der mehr als das 99-fache der Kosten der Gegenmaßnahmen ausmacht, dann müssten wir nach dem obigen Kriterium zwangsläufig die Gegenmaßnahmen ergreifen. Der Aussage \(A\) = “jene Fehlentwicklung tritt nicht ein” können wir dann schließlich höchstens \(P(A)=0.99\) zuordnen, der komplementären Aussage, dem Eintreten der Fehlentwicklung, entsprechend mindestens \(P(\neg A)=0.01.\). Für \(S>99\cdot K\) ist der obigen Formel nach zwangsläufig \(R>1\). Das erfüllt unser Kriterium für diejenige Situation, in der sich die Schutzmaßnahmen lohnen.
Diese Art der Abwägung ist relevant für Schutzmaßnahmen beispielsweise zu Anfang der Pandemie. Je unsicherer die Informationslage, desto geringer der Unterschied zwischen \(P(A)\) und \(P(\neg A)\), und umso größer sollte der Einfluss des Schadens-Verhältnisses von Tun vs. Nichts-Tun sein. In der Hinsicht wäre dann tatsächlich interessant, was z.B. auf der anderen Wagschale lag, als die Politik durch zögerliches Handeln zehntausende vermeidbare Sterbefälle erst in Kauf genommen und dann eben auch geliefert bekommen hat.
Soweit unser erster Kontakt zum Satz von Bayes. In Teil 3 geht es dann mit einigen Konsequenzen aus dem Satz von Bayes weiter. Was hat jener Satz z.B. mit der Aussage zu tun, dass außergewöhnliche Behauptungen auch außergewöhnlich gut belegt sein sollten? Oder mit Ockhams Rasiermesser?
Alle Teile der kurzen Serie: Teil 1 – Teil 2 – Teil 3 – Teil 4
P(D) hat die Seite gewechselt.
In der Tat, habe ich jetzt korrigiert! Danke für’s aufmerksame Lesen und für die Rückmeldung! (Wie viel man bei eigenen Texten selbst beim erneuten Gegenlesen an Fehlern übersieht, ist generell haarsträubend.)
Beim Satz von Bayes blick ich nicht durch.
P(A|D)⋅P(D)=P(D|A)⋅P(A)
Nehmen wir doch mal das Beispiel, was sie mir in ihrem letzten Kommentar (Teil 1) gegeben haben.
P(A)=1/6 So hoch ist also die Wahrscheinlichkeit, dass ich eine 4 würfle.
P(D)=1/2 So hoch ist also die Wahrscheinlichkeit, dass ich eine gerade Zahl würfle.
P(A|D)=1/3 So hoch ist also die Wahrscheinlichkeit, dass ich eine 4 würfle, unter
Bedingung, dass ich eine gerade Zahl würfle.
Und jetzt vertausche ich A und D
P(D|A)=1/2 Das ist wahrscheinlich falsch! Aber warum? Und was ist richtig?
Aus der Formel und den von Ihnen genannten Werten für P(A), P(D) und P(A|D) folgt P(D|A)=P(A|D)*P(D)/P(A)=1. Das ist ja auch richtig so: Wenn Sie eine 4 gewürfelt haben, dann ist ja ganz sicher wahr, dass Sie eine gerade Zahl gewürfelt haben.
Aber was meinen Sie mit “Und jetzt vertausche ich A und D”?
Ich meine es so, wie ich es schrieb.
P(A|D)=1/3 So hoch ist also die Wahrscheinlichkeit, dass ich eine 4 würfle, unter
der Bedingung, dass ich eine gerade Zahl würfle.
Und beim Verstauschen der Buchstaben.
P(D|A)=1 So hoch ist also die Wahrscheinlichkeit, dass ich eine gerade Zahl würfle, unter der Bedingung, dass ich eine 4 würfle.
So, ich hoffe jetzt, dass ich das verstanden habe und ihre Beiträge weiter lesen kann.
Mir war nur nicht klar, wie Sie auf P(D|A)=1/2 kamen, aber das war dann ggf. nur ein Rechenfehler? Jedenfalls gut, wenn jetzt alles klar ist und Sie die Formel an dem einfachen Beispiel nachvollziehen konnten. Viel Spaß beim weiteren Lesen!