Evidenzbasiert entscheiden 3: Sagan, Ockham und Co.

Alle Teile der kurzen Serie: Teil 1 – Teil 2 – Teil 3 – Teil 4
Willkommen beim dritten Teil meiner Mini-Serie dazu, was es an mathematischen Werkzeugen dafür gibt, evidenzbasierte Entscheidungen und Einschätzungen zu treffen! In Teil 1 war es um die Grundbegriffe gegangen (meine “Ernstnehm-Werte” oder Wahrscheinlichkeiten) und in Teil 2 insbesondere um den Satz von Bayes als Möglichkeit, mit solchen Ernstnehm-Werten zu rechnen. In diesem Teil 3 schauen wir uns näher an, was im Satz von Bayes an zum Teil altbekannter Heuristik zur Bewertung von Aussagen bzw. von Erklärungsmodellen steckt. Die entsprechenden Kriterien dürften viele Leser*innen bereits aus anderen Zusammenhängen kennen. Zum Schluss skizziere ich eine praktische Anwendung, nämlich eine mögliche Einschätzung der (wiederholten) Äußerungen von Expert*innen.
Bayes und Sagan: Extraordinary claims require extraordinary evidence
Schauen wir uns die Formel von Bayes dafür noch einmal an:
$$P(A|D) = \frac{P(D|A)\cdot P(A)}{P(D)}$$
Auf der rechten Seite steht \(P(A)\) im Zähler. Ist die a-priori-Wahrscheinlichkeit \(P(A)\) klein, dann muss \(P(D|A)/P(D)\) schon sehr groß sein, damit auf der linken Seite trotzdem noch eine hohe Wahrscheinlichkeit herauskommt, ein Ernstnehm-Wert \(P(A|D)\) möglichst nahe an 1. Das entspricht dem durch Carl Sagan bekannt gewordenen Prinzip “extraordinary claims require extraordinary evidence”. Frei übersetzt: bei außergewöhnlichen Behauptungen muss man uns schon mit außergewöhnlich guten Belegen kommen, bevor wir sie akzeptieren bzw. für wahrscheinlich halten.
Wann die Belege besonders gut sind, sagt uns in der obigen Formel der Ausdruck \(P(D|A)/P(D)\). Das kann man intuitiv wie folgt verstehen: Daten, die außer bei Wahrheit unserer Aussage \(A\) auch in vielen anderen Situationen auftreten, sind zur Beurteilung der Wahrscheinlichkeit von \(A\) nicht besonders hilfreich. Um auf das Polizist*innen-Beispiel aus Teil 1 zurückzukommen: Bestehen meine einzigen Zusatzinformationen in dem Datum “die Person, die vor mir steht, scheint ein Mann zu sein”, ist das nicht sehr aussagekräftig. Selbst wenn es die Wahrscheinlichkeit ein bisschen verschiebt (da bei der Polizei, so vermute ich zumindest, auch heute noch deutlich mehr Männer als Frauen oder nicht-binäre Menschen arbeiten), handelt es sich um eine eher unspezifische Information. Die allermeisten Männer sind nun einmal keine Polizisten. Die Wahrscheinlichkeit, dass eine zufällig ausgewählte Person ein Mann ist, beträgt rund \(P(D)\approx 0.5,\) das \(P(D|A)\) dürfte sich in einer ähnlichen Größenordnung bewegen, und der Quotient ergibt keinen großen Faktor, der die a-priori-Einschätzung mit kleinem \(P(A)\) zu einer anderen als einer immer noch sehr kleinen a-posteriori-Einschätzung werden lassen würde.
Das Tragen einer Polizeiuniform ist deutlich spezifischer. Insbesondere weil Amtsanmaßung eine Straftat ist, dürften nur wenige Nicht-Polizist*innen abseits von Karnevals-Situationen in Polizeiuniformen herumlaufen – und selbst Karnevals-Kostüme sind absichtlich nicht besonders realistisch gestaltet. Die allermeisten Menschen tragen also keine realistischen Polizeiuniformen, und die Wahrscheinlichkeit \(P(D)\) ist damit insgesamt sehr gering. Die Wahrscheinlichkeit \(P(D|A)\) ist zwar nicht eins, denn es ist ja nicht so, als wären alle Polizist*innen jederzeit in Uniform. Vor mir könnte auch ein*e Polizist*in außerhalb der Dienstzeit oder im nicht-uniformierten Dienst stehen. Manchmal steht ein Mitarbeiter der Polizei eben auch mit einem Sonnenhut in schwarz-rot-gold vor einem und beschwert sich ggf., man habe ihn “ins Gesicht gefilmt” (OK, auch das wieder ein glücklicherweise eher unwahrscheinlicher Sonderfall). Aber selbst unter diesen Umständen wird ein Faktor 1/4 (40 Stunden die Woche als durchschnittliche Dienstzeit) mal ein Faktor 4/5 (80% uniformierte Schutzpolizei vs. 20% nicht uniformierte Kriminalpolizei), also insgesamt ein Faktor 1/5, das Gesamt-Verhältnis \(P(D|A)/P(D)\) nur um eine Größenordnung vermindern. Insgesamt genügt das Uniform-Kriterium den Ansprüchen, die wir für die Aussage “vor uns steht ein*e Polizist*in” in punkto Nachweise stellen. Es ist für diesen Fall außergewöhnlich genug – wobei natürlich auch gilt: was Sagan da im Hinterkopf hatte waren Aussagen, die noch deutlich außergewöhnlicher sind als das eher alltägliche “vor mir steht ein*e Polizist*in”.
Bayes und Ockhams Rasiermesser
Soweit zu Bayes und Sagan. Die Bayes-Formel
$$P(A|D) = \frac{P(D|A)\cdot P(A)}{P(D)}$$
hat noch eine andere interessante Eigenschaft. Wenn es einem weniger um Erkenntnisgewinn denn darum geht, Recht zu behalten und die eigene Meinung nicht ändern zu müssen, könnte man ja versucht sein, sich Wege zu überlegen, wie sich die Aussage \(A\) so hinbiegen lässt, dass sie mit möglichst vielen verschiedenen Daten \(D\) vereinbar ist. Die naive Annahme dahinter: Geht man so vor, dann vermeidet man, dass die geliebte Aussage \(A\) durch all jene Daten \(D\) wiederlegt werden könnte, und muss entsprechend nicht von ihr abrücken! Ein Extremfall dafür wäre eine Verschwörungstheorie, bei der die Verschwörungs-Annahme dazu dient, so gut wie beliebig vielfältige unwillkommene Daten zu erklären, ohne dafür die Aussage \(A\) aufgeben zu müssen.
Hier ein hypothetisches Beispiel. Angenommen, mein Erklärungsmodell, Jahrgang 2011, enthielte die Aussage “Aus alten Maya-Schriften folgt, dass am 21. Dezember 2012 die Welt untergeht; die betreffenden alten Maya-Schriften sind absolut vertrauenswürdig”. Stellen wir am 22. Dezember 2012 fest, dass am Vortage weder ein Asteroid eingeschlagen ist noch eine Heuschreckenplage die Welt überzogen hat noch eines der weiteren üblicherweise mit dem Ende der Welt in Verbindung gebrachten Ereignisse stattgefunden hat, dann ist die Frage: Was sagt das über unser Erklärungsmodell aus?
(Bild oben: Tzolkin-Kalender-Abschnitt im Codex Dresdensis, beginnend mit dem Tag 1 Manik. Gezeichnet von Lacambalam, hier verwendet unter Lizenz CC BY-SA 4.0. Via Wikimedia Commons.)
Wer von dem Erklärungsmodell – insbesondere dem Teil, der allgemein großes Vertrauen in jene alten Maja-Schriften ausdrückt – nicht lassen möchte, kann natürlich nach Alternativerklärungen suchen: Das Weltende habe auf einer rein spirituellen Ebene stattgefunden. Das Datum müsse weiter nach hinten verschoben werden. Übelwollende Akteure hätten die Ereignisse des 21. Dezember vertuscht. Ein historisches Beispiel für solche Verschiebungen-des-Erklärungsmodells sind die Verlautbarungen maßgeblicher Akteure bei den Zeugen Jehovas zum Weltenende und dem Beginn des Reichs Gottes. Da wurden Vorhersagen für 1914, 1925, 1975 und eine Reihe weiterer Jahre jeweils im Nachhinein erklärend angepasst, um die Grundüberzeugung nicht aufgeben zu müssen.
Für ausformulierte Erklärungsmodelle schiebt der Satz von Bayes den Möglichkeiten, ein Modell an unliebsamen Daten vorbeizumogeln, zumindest teilweise einen Riegel vor. Das \(P(D|A)\) ist schließlich ein Ernstnehm-Wert, eine Wahrscheinlichkeit, kann also insbesondere nicht größer als eins sein. Für nicht miteinander kompatible Daten, z.B. \(D_1\) = “kataklysmische Ereignisse erschüttern die Erde” und \(D_2\) = “das Weltende ist rein spirituell und geht nicht mit physischen Veränderungen einher”, ist die Wahrscheinlichkeit, dass bei Gültigkeit des Erklärungsmodells \(D_1\) oder \(D_2\) eintritt, die Summe \(P(D_1|A)+P(D_2|A)\). Jene Summe ist ebenfalls eine Wahrscheinlichkeit, also wiederum nicht größer als eins. Das schränkt ein, wie groß ich die Einzel-Wahrscheinlichkeiten \(D_1\) bzw. \(D_2\) separat wählen kann. Soll ein nicht allzu kleiner Bruchteil \(P(D_2|A)\) für den Fall ohne physisch wahrnehmbare Veränderungen übrig bleiben, dann darf ich die Wahrscheinlichkeit für physischen Kataklysmus \(P(D_1|A)\) nicht zu hoch ansetzen.
Damit ist ein einfacheres Modell \(A_1\), das spezifische Vorhersagen macht, etwa konsequent die kataklysmischen Ereignisse \(D_1\) vorhersagt, mit großem Wert für \(P(D_1|A_1),\) gegenüber einem komplexeren Modell \(A_2\), das sich absichert mit “ja, wir erwarten \(D_1\), aber vielleicht wird es auch \(D_2\)” beim Modellvergleich in einer ganz bestimmten Weise im Vorteil. Konkret in der Modellvergleichs-Formel
$$\frac{P(A_1|D)}{P(A_2|D)} = \frac{P(D|A_1)\cdot P(A_1)}{P(D|A_2)\cdot P(A_2)}$$
gilt unter diesen Verhältnissen nämlich für die maximalen für die beiden Sorten von Modell möglichen Wahrscheinlichkeitswerte für den physikalischen Kataklymus, nennen wir sie \(P_{max}(D_1|A_1)\) im Vergleich zu \(P_{max}(D_1|A_2),\) dass \(P_{max}(D_1|A_1)>P_{max}(D_1|A_2)\): Modell \(A_2\) muss zwangsläufig einen Teil der Gesamtwahrscheinlichkeit eins “abzweigen” für das jenem Modell nach ebenfalls mögliche Ergebnis \(D_2\), also für \(P(D_2|A_2)>0\). Sollten die physisch-kataklysmischen Ereignisse dann tatsächlich eintreten, ist die Wahrscheinlichkeit, dass das die solchermaßen maximierte Version des Modell \(A_1\) zutrifft, nach der obigen Formel (eingesetzt mit \(D=D_1\)) höher als für das komplexere Modell \(A_2\), das sich ein Hintertürchen offengehalten hat.
Das ist eine quantitative Version von Ockhams Rasiermesser: jener Maxime, die besagt, dass von zwei Modellen, die eine gegebene Situation erklären, das einfachere Modell vorzuziehen sei. Die obige Modellvergleichsformel und die Auswirkungen der Summeneigenschaften für Wahrscheinlichkeiten zeigen, wie das in einem Bayesschen Rahmen zustandekommen kann.
Nachtrag: Für wissenschaftliche Modelle gibt es noch eine weitere Ockham-Variante auf Basis des Satzes von Bayes, die aber über das hinausgeht, was meine einfache Einführungs-Serie leisten kann/soll. In quantitativen Modellen kann man Parameter entweder explizit wählen oder aber frei lassen und dann erst auf Basis der verfügbaren Daten die Parameterwerte abschätzen. In ähnlicher Weise wie in meinem vereinfachten Beispiel schneiden Modelle mit wenigen freien Parametern im Allgemeinen beim Modellvergleich gegenüber Modellen mit mehr freien Parametern besser ab, zumindest solange beide Modelle die tatsächlichen Daten gut erklären können. Das wäre dann eine weitere Version von Ockhams Rasiermesser.
Je sicherer, desto unvermeidlicher die Korrektur
Die Argumentation, die im vorigen Abschnitt zu Ockhams Rasiermesser geführt hat, lässt sich umkehren. Bin ich mir meiner Sache ganz, ganz sicher und lasse diesen Umstand angemessen in meine Formulierung der Modelleigenschaften einfließen, dann wird es zwangsläufig schwierig, an meinem Modell festzuhalten, wenn Daten dagegensprechen.
Nehmen wir als hypothetisches Beispiel einen Menschen, der felsenfest davon überzeugt ist, dass Änderungen der globalen Durchschnitts-Temperatur einzig und allein sowie ganz direkt (nämlich linear) auf die Variabilität des Energieausstoßes der Sonne zurückgehen. Die Energiefreisetzungs-Variabilität als Teil des 11-Jahres-Aktivitätszyklus unseres Sterns ist ja gut bekannt; ein Beispiel zeigt die folgende Grafik (oberer Teil aus Abb. 7 von Hansen et al. 2013, hier verwendete Version via Wikipedia Commons):

Bei einfachen linearen Zusammenhang müsste auch die irdische Temperatur pendeln, also durch die größere empfangene Energiemenge wachsen und bei geringerer Energiezufuhr fallen. Die puristische Version eines solchen Modells \(A\) ist mit einem längerfristigen Gesamtanstieg der Temperatur (wie er ja in Wirklichkeit gemessen wird) nicht vereinbar – genauer: sie weist einem solchen Gesamtanstieg \(D\) eine sehr geringe Wahrscheinlichkeit \(P(D|A)\) zu. Tritt solch ein Gesamtanstieg trotzdem ein, führt das gemäß der Bayes-Formel
$$P(A|D) = \frac{P(D|A)\cdot P(A)}{P(D)}$$
zu einem Vertrauensverlust: Ein ursprüngliches Vertrauen \(P(A)\) in jenes Modell sollte angesichts jener Daten auf \(P(A|D)\) sinken, und jener Wert ist aufgrund des \(P(D|A)\) auf der rechten Seite der Formel dann sehr gering. Im Extremfall, in dem die Vertreter des Modells \(A\) sich so sicher sind, dass sie für jenes Gesamtanstiegs-\(D\) ein selbstbewusstes \(P(D|A)=0\) angesetzt haben, gilt gemäß dem Satz von Bayes für das gesamte Modell “Treffer, versenkt”, wenn jenes ausgeschlossene \(D\) dann doch auftritt. Sich so kompromisslos festzulegen, hat im Erfolgsfalle Vorteile (siehe Ockhams Rasiermesser weiter oben). Es erzwingt aber die Korrektur bzw. Ablehnung des Erklärungsmodells, wenn trotz jener Sicherheit ein anderes Ereignis eintritt als erwartet.
Serielle Expertise auf dem Prüfstand
Eine hübsche Anwendung des Zusammenhangs zwischen der selbst zugewiesenen Verlässlichkeit von Aussagen und der Art und Weise, wie sich unsere Ernstnehm-Werte der Bayes-Formel nach verändern, ist die Einschätzung von Expertenmeinungen. Wenn in den Medien Expert*innen Vorhersagen treffen, dann ja meist nicht indem eine dem Publikum im Einzelnen zugängliche Auswertung vorgenommen würde, sondern als “black box” – als Einschätzung auf Basis der eigenen Erfahrungen. Das ist per se nicht problematisch. Die Intuition, die Experten im eigenen Spezialgebiet ausbilden, ist durchaus wertvolles Wissen (wie der emeritierte Kollege Gerd Gigerenzer z.B. in seinem Buch “Bauchentscheidungen” argumentiert). Allerdings sollten wir natürlich trotzdem kritisch schauen, wie gut sich die Vorhersagen jener Expert*innen bewähren. Menschen, die wieder und wieder danebenliegen, sollte man in Zukunft nicht ohne Vorbehalte vertrauen – oder, wenn man bei einem Fernsehsender oder einer Zeitung mit höheren Qualitätsmaßstäben arbeitet: jenen Menschen sollte man in Zukunft besser keine größere Plattform bieten.
Der Satz von Bayes ermöglicht es uns, entsprechende Expertisen miteinander zu vergleichen. Wir behandeln dabei jede*n der Expert*innen, den/die wir uns anschauen, als ein uns nicht im Einzelnen bekanntes Erklärungsmodell.
Nehmen wir uns dazu eine fiktive Version von Vorhersagen her, die mich in echt nach wie vor beschäftigen: Kommunikation im Vorlauf zur Covid-Winterwelle 2020/2021, die hier die Rolle der Daten \(D\) spielen soll. Experte \(A_1\) warnt im Sommer 2020 kompromisslos vor der Winterwelle. Da könne gar kein Zweifel bestehen, \(P(D|A_1)=1\). Expertin \(A_2\) ist zur gleichen Zeit vorsichtiger (wie bei Wissenschaftler*innen ja häufige und gute Praxis), warnt zwar auch vor der sehr wahrscheinlichen Winterwelle, aber weist darauf hin, dass solche Vorhersagen natürlich immer auch mit Unsicherheit behaftet wären, sagen wir: \(P(D|A_2)=0.85\). Expertin \(A_3\) ist komplett unentschieden – ob eine Winterwelle komme oder nicht sei komplett offen, vielleicht ja, vielleicht nein, \(P(D|A_3)=0.5\).
Vierter und fünfter Experte vervollständigen das Bild: Vorsichtige Ablehnung bei Experte \(A_4\): wahrscheinlich keine Winterwelle aber hundertprozentige Gewissheit gäbe es bei solchen Vorhersagen natürlich nie, daher \(P(D|A_4)=0.15\) Experte \(A_5\) dagegen ist sich komplett sicher: da kommt keine Winterwelle, \(P(D|A_5)=0\).
Nehmen wir an, dass wir uns vorab noch kein Urteil über Zuverlässigkeit oder Unzuverlässigkeit jener fünf Expert*innen gebildet haben. Unser a-priori-Vertrauen ist für alle fünf dasselbe, irgendein Wert
$$P(A_1)=P(A_2)=P(A_3)=P(A_4)=P(A_5).$$
Nachdem es 2020/2021 tatsächlich eine Winterwelle gab, können wir entsprechend wieder den Modellvergleich vornehmen – das “Modell” war dabei wie gesagt die gesammelte Expertise jedes der Experten samt der Art und Weise, wie jene Experten daraus Aussagen über die Wirklichkeit ableiten; für uns eine “black box”, aber eine, deren Vorhersagen wir mit dem abgleichen können, was tatsächlich geschah. Bei gleichen a-priori-Wahrscheinlichkeiten haben wir für den Modellvergleich
$$\frac{P(A_1|D)}{P(A_2|D)} = \frac{P(D|A_1)}{P(D|A_2)}$$
und analog für die weiteren paarweisen Kombinationsmöglichkeiten. Für den Winterwellen-Hardliner \(A_1\) verschiebt der Vergleich den Ernstnehm-Wert deutlich nach oben. Seine Kompetenz sollten wir, zumindest der Formel nach, 6,7 Mal ernster nehmen als die Kompetenz des vorsichtigen Ablehners \(A_4\). Der keine-Winterwellen-Hardliner fällt mit seiner Kombination aus falscher Vorhersage bei extremem eigenen Vertrauen in jene Vorhersage so weit wie irgend möglich: Sein Ernstnehm-Wert sinkt auf Null. Zwischen der vorsichtigeren Winterwellen-Warnerin und dem vorsichtigen Winterwellen-Ablehner macht unsere Methodik immerhin noch eine Unterschiedsfaktor von 5,7 aus. Der Faktor zwischen Hardliner-Warner \(A_1\) und vorsichtigem Warner \(A_5\) beträgt dann nur noch 1,18.
Allerdings haben wir typischer Weise ja über einen längeren Zeitraum hinweg mehrere Aussagen all jener Experten vorliegen. Sind jene Aussagen unabhängig genug voneinander, etwa weil sie sich auf verschiedene Phasen der Pandemie oder auf unterschiedliche Themenbereiche (Wirksamkeit von Masken, Nebenwirkungen der Impfung, zukünftiger Pandemie-Verlauf) beziehen, können wir unsere Analyse entsprechend verketten. Jede a-posteriori-Einschätzung kann als a-priori-Wahrscheinlichkeit für die nächste Runde der Experten-Beurteilung genutzt werden. (Und ja, an dieser Unabhängigkeit kann es in der Praxis kranken – diese Komplikation geht aber über die vereinfachte Darstellung meiner Serie deutlich hinaus, und ich vernachlässige sie hier.)
Läge \(A_4\) mit seinen Einschätzungen nacheinander, sagen wir, vier Mal so daneben wie beim hier genannten Beispiel, und \(A_1\) vier Mal richtig, dann wäre der relative Faktor zwischen den Ernstnehm-Werten der beiden schon \((6,7)^4=2015\). Je mehr Aussagen wir bewerten, desto deutlicher werden die Unterschiede. Allerdings lebt \(A_1\) gefährlich. Genau so wie Hardcore-Winterwellen-Ablehner \(A_5\) in unserem Beispiel würde auch bei \(A_1\) eine als absolut sicher verkaufte Aussage, die sich dann als falsch erweist, ausreichen, um den Ernstnehm-Wert von \(A_1\) auf Null zu setzen – und ist jener Wert einmal identisch bei Null, hilft auch kein weiterer Faktor eines späteren Modellvergleichs mehr, um das zu ändern.
Wie sieht serielle Experten-Evaluation in der Praxis aus?
Die im letzten Abschnitt beschriebene Evaluation kann man natürlich auf verschiedene Arten und Weisen durchführen. Am einfachsten wäre, wenn es einen einheitlichen Sprachgebrauch gäbe und die Expert*innen, die in den Medien befragt werden, zu jeder ihrer Aussagen jeweils eine Einschätzung abgeben würden, wie groß ihr Vertrauen in die Wahrheit der betreffenden Aussage ist. Dann könnte jede*r im Laufe der Zeit direkt selbst evaluieren, was da läuft – und Expert*innen-Aussagen in den Medien wären deutlich aussagekräftiger als vorher. Man könnte sich zum Beispiel auf die folgenden Korrespondenzen einigen:
- So gut wie sicher (virtually certain): P zwischen 0.99 und 1.0
- Sehr wahrscheinlich (very likely): P zwischen 0.9 und 1.0
- Wahrscheinlich (likely): P zwischen 0.66 und 1.0
- so wahrscheinlich wie das Gegenteil (about as likely as not): P zwischen 0.33 und 0.66
- Unwahrscheinlich (unlikely): P zwischen 0 und 0.33
- Sehr unwahrscheinlich (very unlikely): p zwischen 0 und 0.1
- Extrem unwahrscheinlich (exceptionally unlikely): p zwischen 0 und 0.01
Für Zuschauer*innen, die gar nicht so tief einsteigen wollen, ändert sich dadurch nichts. Die hören nach wie vor den Expertin im Fernsehen sagen “Ich bin mir so gut wie sicher, dass…” oder “Ich halte es für sehr unwahrscheinlich, dass…”. Aber für diejenigen, die den Sprachgebrauch kennen, liefert eine solche einheitliche Sprechweise ungleich mehr Informationen als vorher.
Wem das als weltfremdes Szenario erscheint: Beim IPCC, dem Intergovernmental Panel on Climate Change gibt es genau solche Bestrebungen, Aussagen zu quantifizieren und zu vereinheitlichen. Von dort stammt das englische Original der obigen Tabelle (die ich hier zitiere nach Abb. 1 in Kause et al. 2022). Und in deren Reports ist entsprechend für alle wichtigen Aussagen jeweils am Ende in Klammern angegeben, ob jene Aussage mit “high confidence” oder “medium confidence” oder “low confidence” (oder im Extremfall mit den Varianten mit “very” davor) getroffen wird. Auch jene Zuweisungen sind natürlich nicht perfekt – und tatsächlich geht es in dem oben verlinkten Fachartikel von Kause et al. darum, zu erforschen, was Expert*innen denn konkret meinen, wenn sie Einschätzungen dieser Art abgeben. Aber es ist ein sehr engagierter Umsetzungsversuch eines allgemeinen Schemas, das die Einschätzung der Ernstnehm-Werte von Aussagen erlaubt.
In der aktuellen Medienlandschaft, wo es keine solche allgemein gültige Zuordnung von Wortwendungen zu Ernstnehm-Werten gibt, kann man natürlich trotzdem nachträglich zu analysieren versuchen, wie die verschiedenen Expert*innenaussagen einzuordnen waren: Wird eine Einschätzung als Tatsache präsentiert (“so gut wie sicher”)? Als “sehr wahrscheinlich” oder als “so wahrscheinlich wie das Gegenteil”? Auch auf solchen nachträglichen Bewertungen könnte man eine serielle Evaluation aufbauen und entsprechende Schlüsse ziehen. Beschwerden über bestimmte Expert*innen, die nach Einschätzung der Beschwerdeführer*innen zu wenig oder zu oft oder überhaupt in den Medien eine Plattform bekämen, gab es in der Pandemie ja von so ziemlich allen Seiten der verschiedenen Debatten. Eine serielle Evaluation wie die hier beschriebene könnte diesen Teil der Kritik auf eine Evidenz-Basis stellen. Wer zu oft mit großem Selbstvertrauen etwas behauptet, das sich später als falsch herausstellt, sollte ab einem bestimmten Ernstnehm-Ratio sinnvoller Weise nicht mehr so prominent verbreitet werden wie jemand, dessen Expertise sich der Evaluation nach bewährt hat.
Damit sind wir schon fast am Ende dieser kleinen Einführung ins evidenzbasierte Entscheiden und Einschätzen. In Teil 4 wird es dann noch um den Vergleich der baysschen Verfahren mit klassischer, sogenannte frequentistischer Statistik gehen (die üblicherweise gemeint ist, wenn davon die Rede ist, ein Ergebnis sei “signifikant”), bevor ich ein Fazit ziehe.
Alle Teile der kurzen Serie: Teil 1 – Teil 2 – Teil 3 – Teil 4
Artikel-Titelbild-Streifen ganz oben: Zugeschnittene Version von “Tzolkin-Abschnitt im Codex Dresdensis, beginnend mit dem Tag 1 Manik. Gezeichnet von Lacambalam”, hier verwendet unter Lizenz CC BY-SA 4.0. Via Wikimedia Commons.)
Markus Pössel schrieb (20. Mai 2024):
> […] Ockhams Rasiermesser [… ist die] Maxime, die besagt, dass von zwei Modellen, die eine gegebene Situation erklären, das einfachere Modell vorzuziehen sei.
Dieser Darstellung ist entgegenzusetzen, dass Ockhams Rasiermesser stattdessen die Maxime ist, die besagt:
dass von zwei Bewertungs-Grundlagen, durch deren Anwendung jeweils festgestellt werden kann (bzw. sogar schon festgestellt wurde), konkret welche “Situation” überhaupt gegeben gewesen war (und konkret welche “Situationen” nicht) die einfachere (nachvollziehbarere) vorzuziehen sei;
einschl. der damit erhaltenen Feststellungen, konkret welche “Situation” denn überhaupt gegeben gewesen war, und welche nicht.
p.s.
> […] Heuristik zur Bewertung von Aussagen bzw. von Erklärungsmodellen
> […] Hintertürchen [um] an meinem Modell festzuhalten, wenn Daten dagegensprechen
> […] mögliche Einschätzung der (wiederholten) Äußerungen
Dabei, sowie bei darauf basierendem Wetten (auf bestimmte zukünftige Feststellungen, bzw. gegen bestimmte andere), handelt es sich allerdings um ganz eigene, womöglich “weltlichere” und gelegentlich auch Ertrag-reichere Künste.