Sind die meisten Ergebnisse in den Neurowissenschaften und in der Biomedizin falsch?

BLOG: WIRKLICHKEIT

Hirnforschung & Theologie
WIRKLICHKEIT

Im März dieses Jahres erschien in der renommierten Fachzeitschrift Nature Reviews Neuroscience ein Artikel von Katherine S. Button und Kollegen (Pubmed, Volltext), in dem die These aufgestellt wurde, dass die Zuverlässigkeit neurowissenschaftlicher Befunde durch die meist zu geringe statistische Power in den entsprechenden Studien massiv in Frage gestellt sei. Einer der Koautoren dieses “Analysis Paper”, der Epidemiologe John P. A. Ioannidis (Tufts University), hatte bereits 2005 in einer Aufsehen erregenden Publikation in der Zeitschrift PLoS One Medicine behauptet – und (vermeintlich) mathematisch bewiesen –, dass der größte Teil biomedizinischer Befunde nachweisbar falsch sei (Volltext). Wie kommen die Autoren zu dieser alarmierend skeptischen Position und was ist davon zu halten?

Vielen dürfte bekannt sein, dass bei zu geringer statistischer Power (in der Regel infolge zu kleiner Stichproben) das Risiko steigt, dass eine Studie tatsächlich vorhandene Effekte übersieht (sog. Typ II-Fehler): Der statistische Test eines empirisch ermittelten Unterschieds oder einer gefundenen Korrelation wird auf dem übliche Signifikanzniveau von a =0.05 (bzw. 5%) nicht signifikant, obwohl tatsächlich ein Effekt vorhanden ist. Die Konvention verlangt, dass die Wahrscheinlichkeit b für diesen Fehlertyp nicht über 0.2 (bzw. 20%) liegen sollte; die statistische Power läge dann entsprechend bei (1- b) = 0.80 (bzw. 80%). Die statistische Power hängt entscheidend von der Stichprobengröße ab. Das Rationale des Hypothesentests nach Neyman und Pearson verlangt demnach, dass man im Vorfeld einer Studie abschätzt, mit welchen empirischen Effekten (z.B. Mittelwertsunterschieden) man rechnen darf und wie groß die Stichprobe dann sein muss, um diesen Effekt als statistisch signifikant auszuweisen.

Button et al. fanden nun bei einer umfangreichen Analyse neurowissenschaftlicher Metaanalysen, dass die (geschätzte) statistische Power vieler neurowissenschaftlicher Studien (vor allem Bildgebungs- und Tierstudien) infolge zu kleiner Stichproben deutlich unterhalb der Konvention liegt: 57% aller Studien hatten eine Power unter 30%, d.h. die b-Fehlerwahrscheinlichkeit lag bei der Mehrzahl der Studien bei über 70%.

Viele Forscher werden auf diese Kritik antworten, dass man sich für die übersehenen kleinen Effekte auch gar nicht interessiere; denn wirklich relevant seien nur die großen Effekte, die bereits mit kleinen Stichproben als statistisch signifikant entdeckt und berichtet werden: Nur ein Effekt, der trotz geringer statistischer Power (also in kleinen Stichproben) gefunden werden kann, ist ein belastbarer, zuverlässiger Effekt!

Weit gefehlt, sagen Button et al. Bei zu geringer Power werden keinesfalls nur real vorhandene Effekte übersehen. Es sinkt auch die Wahrscheinlichkeit dafür, dass im Falle eines statistisch signifikanten Tests tatsächlich ein entsprechender Effekt existiert. Die Zuverlässigkeit (Reliabilität) statistisch signifikanter Befunde sinkt, so die Autoren, mit sinkender Power drastisch ab – bei den derzeitig üblichen Power-Werten liegt die Zuverlässigkeit sogar unter 0.50 (bzw. 50%). Demnach seien also mehr als die Hälfte aller als statistisch signifikanten berichteten (vermeintlich starken) Effekte wahrscheinlich tatsächlich gar nicht vorhanden. Anders formuliert: Die Mehrzahl neurowissenschaftlicher und biomedizinischer Studienergebnisse sind falsch.

Manche, die wie ich nur an der Oberfläche eines statistischen Verständnisses kratzen, werden sich nun verwundert die Augen reiben und fragen: Wie? Die Wahrscheinlichkeit, dass ein statistisch signifikanter Effekt wahr ist, sinkt ab? Hängt das denn nicht ausschließlich von dem a-Wert ab? Die akzeptierte Wahrscheinlichkeit dafür, dass ein statistisch signifikanter Effekt ein Fehlalarm ist, wird meist festgelegt auf a = 0.05 (bzw. 5%). Müsste denn dann nicht die Wahrscheinlichkeit für korrekte signifikante Effekte immer bei (1-a) = 0.95 (bzw. 95%) liegen? Mitnichten! Denn die Fehlerwahrscheinlichkeit a bezieht sich auf die 100% Situationen, in denen tatsächlich kein Effekt vorhanden ist (d.h. Spaltenprozente in der üblichen 4-Felder-Tafel). Auf dem üblichen Signifikanzniveau werden statistische Tests daher in 95% der Fälle zutreffenderweise nicht signifikant, wenn tatsächlich kein Effekt vorliegt (correct rejections). Uns interessiert aber umgekehrt in wie viel Prozent der Fälle, in denen ein statistischer Test signifikant wurde, tatsächlich ein Effekt vorliegt (Zeilenprozente in der üblichen 4-Felder-Tafel).

Vielleicht hilft ein Vergleich. Ein diagnostischer Test ist nie ganz perfekt. In einem gewissen Prozentsatz der Fälle schlägt er an, obwohl die fragliche Krankheit faktisch gar nicht vorliegt (Fehlalarmrate); die Spezifität eines Tests definiert man dann als (100% – Fehlalarmrate). Wenn man auch hier eine Fehlalarmrate von höchstens 5% akzeptiert, dann läge die Spezifität der Tests demnach bei mindestens 95%. Ein Typ II-Fehler liegt dagegen vor, wenn eine vorhandene Krankheit durch den Test übersehen wird (Verpasser, misses); die Sensitivität eines Tests definiert man dann als (100% – Verpasser-Rate). Würde man hier die üblichen 20% Fehler akzeptieren, läge die Sensitivität der Tests bei mindestens 80%. Mit diesen beiden Angaben wissen wir aber noch nicht, in wieviel Prozent der Fälle, in denen der diagnostische Test positiv ist, tatsächlich eine Krankheit vorliegt; diesen Prozentsatz nennt man “positiven prädiktiven Wert” (positive predictive value, im Folgenden: PPV). Um PPV berechnen zu können, benötigen wir Angaben zur Wahrscheinlichkeit des Auftretens der Krankheit, also der sogenannten Prävalenz.

Die Formel lautet dann:

PPV = Sensitivität * Prävalenz / (Sensitivität * Prävalenz + Fehlalarmrate * (1 – Prävalenz)).

Zähler und Nenner kürzen sich zu 1 (bzw. 100%), wenn die Fehlalarmrate 0% und / oder die Prävalenz 100% wäre: Wenn ein Test keine Fehlalarme produziert und / oder jeder Getestete die Krankheit hat, dann liegt im Falle eines positiven Tests die Krankheit immer auch tatsächlich vor. PPV schrumpft dagegen mit der Fehlalarmrate des Tests sowie der Seltenheit der Erkrankung (vgl. false positive paradox, Dank für diesen Hinweis an @Dr. Webbaer).

Zusätzlich gibt es aber auch einen Effekt von Sensitivität und Prävalenz auf die PPV, welchen man bei Betrachtung der Formel nicht so leicht erkennen und einschätzen kann. Da ein Bild mehr sagt als viele Worte, wird der Zusammenhang im folgenden Diagramm veranschaulicht.

Sensitivity Prevalence

Man erkennt, dass die PPV bei geringer Sensitivität niedriger liegt – genau darauf verweisen Button et al.! Der Effekt hängt allerdings von der Prävalenz der fraglichen Erkrankung ab. Mit steigender Prävalenz nimmt PPV zu und der Effekt der Sensitivität spielt eine immer geringere Rolle im Hinblick auf PPV. Beispiel: Ein diagnostischer Test habe eine Spezifität von 95%. Im Falle einer seltenen Erkrankung (Prävalenz = 0.10 bzw. 10%) wäre PPV = 0.68 (bzw. 68%), wenn die Sensitivität bei 80% liegt; aber wenn die Sensitivität bei nur 20% läge, wäre PPV = 0.31 (bzw. 31%) – d.h. die Wahrscheinlichkeit, dass ein positiver diagnostischer Test zuverlässig eine vorhandene Krankheit anzeigt, würde mehr als halbiert und läge dann unter 50%, sodass die Mehrzahl positiver Tests falsch wäre! Aber wenn die Krankheit bei den Getesteten häufig vorliegt (Prävalenz = 0.90 bzw. 90%), dann ändern sich diese beiden Werte für PPV zu 0.994 (80% Sensitivität) and 0.973 (20% Sensitivität); d.h. der Einfluss der Sensitivität auf PPV verringert sich dramatisch.

Button et al. übertragen das Rationale des diagnostischen Testens auf die Anwendung des statistischen Signifikanztests in der wissenschaftlichen Forschung. Parallelen bzgl. der beiden Fehlertypen sind offensichtlich. Kritisch ist allerdings das Konzept der “Prävalenz wahrer Effekte”, das für die Berechnung der “PPV” zwingend benötigt wird. Im Falle von Krankheiten gibt es ein klares Kriterium für das Vorliegen oder Nichtvorliegen einer Erkrankung und die Auftretensrate in der Population lässt sich vernünftig abschätzen. Was bedeutet “Prävalenz” aber im Zusammenhang mit Signifikanztests?

Button et al. behaupten, dass sich die Auftretensrate für das Vorliegen wahrer Effekte unter allen getesteten (oder testbaren?) Effekten rational einschätzen lässt und dass sie im Bereich der Neurowissenschaften relativ niedrig sei. Leider erwähnen die Autoren dies lediglich in der Legende zu einer Abbildung (Fig. 4), erläutern diese entscheidende Annahme jedoch nicht im Text. Darüber hinaus verwenden sie nicht Wahrscheinlichkeiten, sondern Chancen (“odds”) und in ihren Diagrammen zeigen sie die Zusammenhänge von PPV, Power und “Prävalenz” allenfalls bis zu einer Chance von 1:1 – entsprechend einer Prävalenz von 0.5. Das heißt: In der Darstellung bei Button et al. fehlt die gesamte rechte Hälfte unseres Diagramms! Hierdurch erscheint der Effekt von Sensitivität (bzw. statistischer Power) auf die PPV (bzw. die Zuverlässigkeit statistische signifikanter Befunde) bei ihnen wesentlich dramatischer.

Die kritische Frage ist somit: Lässt sich so etwas wie die “Prävalenz wahrer Effekte” überhaupt einschätzen? Ich bin der Meinung, dass das nicht möglich ist. In gewisser Weise beißt sich hier sogar die Katze in den Schwanz: Button et al. beklagen einerseits, dass die Stichprobengrößen und somit die Power zu klein sei, was ja bedeutet, dass viele faktisch vorhandene Effekte übersehen werden – und andererseits beruht ihre alarmierende Behauptung, dass weniger als die Hälfte aller getesteten Effekte existieren, auf der Voraussetzung, dass Effekte selten sind. Mir erscheint das selbstwidersprüchlich.

Meine Position ist: Wir können nicht wissen, wie wahrscheinlich wahre Effekte sind. Meistens haben Forscher sehr gute Gründe dafür, eine bestimmte Hypothese zu testen – allein durch diese Selektion kann die Wahrscheinlichkeit wahrer Effekte unter allen getesteten (oder testbaren) Effekten deutlich zunehmen. Ferner könnte man behaupten, dass im Gehirn im Grunde fast alles alles irgendwie beeinflusst – wenn auch teilweise nur extrem geringfügig -, sodass die “Prävalenz wahrer Effekte” bei fast 100% läge! (Fundierter argumentiert in meine Richtung der Statistiker Prof. Dr. P. M. von der Lippe: hier, Dank an @Balanus für diesen Hinweis).

Wenn wir den Wert für “Prävalenz” aber prinzipiell nicht wissen können, dann können wir auch nicht wissen, wie sehr die geringe statistische Power vieler neurowissenschaftlicher Studien die Reliabilität signifikanter Befunde beeinträchtigt. Ja, es ist in der Tat möglich, dass der Effekt sehr ausgeprägt ist und mehr als die Hälfte aller berichteten signifikanten Effekte tatsächlich nicht existieren; Button et al. (und auch Ioanndis et al.) könnten durchaus Recht haben. Aber: wissen können wir das nicht, es lässt sich nicht mathematisch beweisen. Es ist ebenso möglich, dass der Effekt der Power nur sehr gering ist und vernachlässigt werden darf.

Was kann man aus dieser Debatte lernen? Dass der Test auf statistische Signifikanz niemals die Frage beantwortet, ob ein Effekt in einem theoretisch oder praktisch relevanten Maße wirklich existiert. Man muss vielmehr vor der Durchführung eines statistischen Tests festlegen, was denn konzeptuell (!) als Effekt zählen würde und was nicht. Der statistische Test stellt dann nur noch sicher, dass ein Effekt, der das gewählte konzeptuelle Kriterium erfüllt, unter der Annahme, dass tatsächlich doch gar kein Effekt vorliegt, nur mit sehr geringer Wahrscheinlichkeit (<5%) zu erwarten wäre. Dies genau ist auch das ursprüngliche Rationale des Hypothesentests.

Beispiel: Eine neue Therapie gelte gegenüber der Standardtherapie genau dann als überlegen, wenn die Responder-Rate (response = Patienten sprechen auf Therapie an) um 50% oder mehr gesteigert werden kann. In einer Pilotstudie finden sich unter den 10 Standardpatienten nun 4 Responder, unter den innovativ behandelten Patienten dagegen 6 Responder – das Kriterium ist somit erfüllt, die Responderrate wurde um 50% erhöht. Der statistische Signifikanztest (z.B. ein c2-Test) offenbart nun aber, dass die empirisch gefundene günstige Verteilung auch unter der Annahme, dass die Therapiebedingung überhaupt keinen Einfluss auf die Responderrate hat, mit 30%iger Wahrscheinlichkeit auftreten würde – das ist nicht akzeptabel. Um dieselbe relative Responderratenerhöhung als statistisch signifikant aufzuweisen – sprich: mit einer Fehlerrate unter 5% – müssten in einer Gruppe von 50 Standardpatienten 20 und in einer gleich großen Gruppe innovativ behandelter Patienten mindestens 30 Patienten respondieren. Man sieht: die Stichprobengröße muss mindestens verfünffacht werden, um beide Kriterien – das konzeptuelle und das statistische – erfüllen zu können.

Sie sollten sich demnach nie wieder von bloßer statistischer Signifikanz bluffen lassen, sondern fortan immer gleich nachfragen: Wie groß ist denn der gefundene Effekt, ist er der Rede wert?

Und Sie sollten bei der Planung einer eigenen Studie nie wieder lediglich das Signifikanzniveau a festlegen, sondern sich immer auch Gedanken über die konzeptuelle Definition von Effekten und die erforderliche statistische Power bzw. Stichprobengröße machen.

Christian Hoppe

Veröffentlicht von

Geboren 1967 in Emsdetten/Westfalen. Diplom kath. Theologie 1993, Psychologie 1997, beides an der Universität in Bonn. Nach einem Jahr am Leipziger Max-Planck-Institut für neuropsychologische Forschung (1997-98) bin ich seit Oktober 1998 klinischer Neuropsychologe an der Universitätsklinik für Epileptologie in Bonn. Ich wurde an der Universität Bielefeld promoviert (2004) und habe mich 2015 an der Medizinischen Fakultät der Universität Bonn habilitiert (Venia legendi für das Fach Neuropsychologie). Klinisch bin ich seit vielen Jahren für den kinderneuropsychologischen Bereich unserer Klinik zuständig; mit erwachsenen Patientinnen und Patienten, die von einer schwerbehandelbaren Epilepsie oder von psychogenen nichtepileptischen Anfällen betroffen sind, führe ich häufig Gespräche zur Krankheitsbewältigung. Meine Schwerpunkte in Forschung und Lehre liegen in den Bereichen klinische Neuropsychologie (z.B. postoperativer kognitiver Outcome nach Epilepsiechirurgie im Kindesalter) und Verhaltensmedizin (z.B. Depression bei Epilepsie, Anfallsdokumentation). Ich habe mich immer wieder intensiv mit den philosophischen und theologischen Implikationen der modernen Hirnforschung beschäftigt (vgl. mein früheres Blog WIRKLICHKEIT Theologie & Hirnforschung), eine Thematik, die auch heute noch stark in meine Lehrveranstaltungen sowie meine öffentliche Vortragstätigkeit einfließt.

22 Kommentare

  1. Herr Hoppe

    , mal laienhaft nachgefragt an Hand eines Beispiels:

    Eine Münze, die auf einer Seite “Kopf”, auf der anderen “Zahl” zeigt, wird dahingehend als krank vermutet, dass sie fortlaufend auf “Kopf” fällt.
    Es stehen fünf gleichartige Probanden zur Verfügung, diese werden jeweils einmal geworfen und zeigen nach dem Wurf “Kopf”.
    Wir prüfen die Hypothese vergleichend mit idealtypischen Münzen, die gleich verteilt “Kopf” oder “Zahl” zeigen und stellen die Signifikanzniveau (1/2)^5 = 3,125% fest.

    Somit wäre unsere kleine Untersuchung die statistische Signifikanz betreffend aussagefähig, korrekt?

    Wir dürfen davon ausgehen, dass der Effekt mit den o.g. idealtypischen Münzen hinreichend selten auftritt, wenn er (die “Krankheit”) eben gänzlich nicht da.

    Nun kümmert sich die Betrachtung des Artikels gerade auch um die Bemessung von Effekten, wenn die Effekte (auch: teilweise) da sind.
    Wie man an Hand dieses Beispiels aber die Wahrscheinlichkeit bestimmen kann, dass der Test den Effekt nachweist, wenn er (auch: teilweise) da ist, bleibt unklar.
    Muss auch unbestimmt bleiben, wenn das Fallverhalten der Münzen unbekannt ist, oder?

    Was zu derartigen Untersuchungen generell auffällt, ist dass eine Fehlindikation (“false positive”) medizinisch idR ausgehalten werden kann, dann wird eben weiter geprüft, nicht aber der Ausschluss eines Effekts, wenn er da ist.

    MFG
    Dr. W (der allgemein schon halbwegs folgen konnte – sehr interessanter Artikel btw)

  2. @Webbaer

    Das Problem ist, dass alle Stichproben endlich groß sind. D.h. bei der Prüfung einer Münze werden Sie eher selten die idealtypische Verteilung 50:50 finden.

    Nehmen wir an, jemand behaupte, er verfüge über psychokinetische Fähigkeiten und er könne den durch eine andere Person ausgeführten Münzwurf mental beeinflussen.

    Mein Vorschlag wäre, dass man – für das geplante Experiment – genau festlegt, ab wann man der Person zugestehen würde, dass sie Einfluss auf das Ergebnis des Münzwurfes hat. Z.B. er schafft es, 70% “Kopf” zu erreichen.

    *Zusätzlich* müsste dann mit Hilfe eines Signifikanztests sicher gestellt werden, dass das entsprechende Resultat unter der Annahme der Nichtexistenz psychokinetischer Phänomene nicht ebenfalls mit einer substanziellen Wahrscheinlichkeit auftreten könnte – und hier fordern wir dann z.B. p<.05).

  3. Herr Hoppe

    Ja, gut, der Webbaer ist nicht ganz verstanden worden.

    Mal mehr am Text festhaltend:

    Button et al. behaupten, dass sich die Auftretensrate für das Vorliegen wahrer Effekte unter allen getesteten (oder testbaren?) Effekten rational einschätzen lässt und dass sie im Bereich der Neurowissenschaften relativ niedrig sei.
    (…)
    Die kritische Frage ist somit: Lässt sich so etwas wie die “Prävalenz wahrer Effekte” überhaupt einschätzen?

    Die Prävalenz lässt sich womöglich oft brauchbar schätzen, auf dieser Annahme basiert die Arbeit Buttons.
    Button ist der Ansicht, dass dieser Aspekt bei bei Arbeiten regelmäßig vernachlässigt wird.

    Das Thema ist übrigens nicht ganz neu, vgl. auch False-Positive Paradoxon

    MFG
    Dr. W

  4. Hans-Peter Beck-Bornholdt und Hans-Hermann Dubben diskutieren dieses Problem ausführlich und allgemeinverständlich im 17. Kapitel von “Der Schein der Weisen.”

    http://www.beck-bornholdt.de/2.html

    “Wenn die Experten so gut sind, wie sie glauben, dann sind Studien und Statistiken völlig überflüssig. Man muß nur sechs Koriphäen zusammentrommeln und diese sechsköpfige Sphinx befragen. – Sind die Experten nicht so gut und ihre Wahrscheinlichkeit für gute Ideen obendrein nicht genau bestimmbar, dann sind Studien und Statistiken ebenfalls überflüssig, da die Irrtumswahrscheinlichkeit sehr hoch und nicht meßbar ist.”

    Im 22. Kapitel schlagen sie sogar eine “Alternative zu konventionellen randomisierten klinischen Studien: die Never-change-a-winning-team-Strategie mit Lernalgorithmus” vor.

  5. @Webbaer

    Habe Ihren Hinweis auf das false positive paradox mit Link (und Dank an Sie) in den Text aufgenommen.

    Wie würden Sie denn die Wahrscheinlickeit wahrer Effekte unter allen getesteten/testbaren Effekten schätzen?

  6. Herr Hoppe

    Wie würden Sie denn die Wahrscheinlickeit wahrer Effekte unter allen getesteten/testbaren Effekten schätzen?

    Wissenschaftssoziologisch so, dass die wissenschaftliche Veranstaltung so stattfindet, wie sie eben stattfindet.

    Etwas ernster: Es kann gut sein, dass Button richtig liegt, aber nichts dürfte für die Studien Betreibenden unangenehmer sein als unterhalb des bekannten (und unzureichenden) Signifikanzniveaus vorzutragen und/oder medizinische falsch-negative Diagnosen zu befördern.

    MFG
    Dr. W

  7. @Balanus

    Danke, @Balanus! Hab den Link – mit Dank an Sie – ebenfalls in den Text aufgenommen.

    Vor allem Fans von Hans-Peter Beck-Bornholdt und Hans-Hermann Dubben sollten diesen 12-seitigen Text (pdf) DRINGENDST lesen!

    Mit von der Lippe lässt sich meine Kritik nun ziemlich knapp zusammenfassen: Die von Button et al. (stillschweigend) vorgenommene Einschätzung der a priori-Wahrscheinlichkeiten von Effekten (“Prävalenz”) beruht auf einer Fehlanwendung der Bayes-Statistik im Bereich des Hypothesentestens sowie einem Missverständnis des Rationale der klass. Testtheorie (welche bei der Prüfung von Hypothesen hervorragende Dienste leistet).

  8. @Balanus

    Danke auch von mir. Ich werde den mir den Text bei nächster Gelegenheit gerne ansehen.

  9. Diagramm / @Christian Hoppe

    »Das heißt: In der Darstellung bei Button et al. fehlt die gesamte rechte Hälfte unseres Diagramms!«

    In Fig. 4 bei Button et al. ist die Type I Fehlerrate konstant 0.05.

    Bei Ihrer Rechnung ist das ganz anders …

  10. Was sagen denn

    Die von Button et al. (stillschweigend) vorgenommene Einschätzung der a priori-Wahrscheinlichkeiten von Effekten (“Prävalenz”) beruht auf einer Fehlanwendung der Bayes-Statistik im Bereich des Hypothesentestens sowie einem Missverständnis des Rationale der klass. Testtheorie (…)

    …andere zur Studie?

    MFG
    Dr. W

  11. @Chrys

    Nö. Bei dem Diagramm gilt ebenfalls alpha = 0.05. Die linke Hälfte ist identsich mit der Fig. 4 in der Originalpublikation.

  12. @Webbaer

    Es gab drei – kritische – Kommentare, meiner wird demnächst noch dazu kommen.

    Die Thematik macht – im Zusammenhang mit der fehlenden Reproduzierbarkeit vieler exp. Befunde – derzeit schon einen ziemlichen Aufruhr; das galt auch schon für das allgemeinere Ioannidis-Paper (2005).

    Wie weit meine Überlegungen andere Kollegen überzeugen, kann ich derzeit noch nicht sagen.

  13. Herr Hoppe

    Danke, die Statistische Signifikanz steht als Instrument außer Frage, schon um nicht beliebig zu werden – andere Bemühungen statistischerseits (“Power”) sind dagegen problematisch.

    Grundsätzlich geht es ja in Studien oft rein praktisch darum, dass auf der einen Seite gegebene Effekte selten ausgeschlossen werden, auf der anderen Seite aber nicht gegebene Effekte unzureichend ausgeschlossen werden.

    Wissenschaftssoziologisch macht das natürlich für die Teilnehmer und Teile der Rezipienz Sinn.

    Vielleicht ist es Nonsens, was Button et al. hier vortragen, aber ein Problem existiert.

    MFG
    Dr. W

  14. @Christian Hoppe

    Meine Anmerkung war etwas zu kurz und missverständlich geraten. Worauf ich hinweisen wollte war, Sie rechnen mit einer anderen PPV Formel als Button et al. sowie bereits Ioannidis (2005). Mit Ihren obigen Bezeichnungen wäre die PPV Formel nach Ioannidis nämlich

    PPV = Sensitivität * Prävalenz / (Sensitivität * Prävalenz + Fehlalarmrate),

    wobei Fehlalarmrate = 0.05. Damit kommt dann auch die Fig. 4 genau heraus, da fehlt nichts.

  15. @Chrys

    Leider wieder nö.

    Meine Formel benutzt Wahrscheinlichkeiten für die Prävalenz (bzw. pre study probability oder a priori-Wahrscheinlichkeit) während Button et al. und Ioannidis et al. wie erwähnt mit pre study odds (R) rechnen – dadurch kommt es zu einer kleinen Veränderung in der Formel, wie Sie sie zitieren. Ansonsten sind die Formeln äquivalent.

  16. @Dr. Webbaer: Beliebigkeit/Willkür

    die Statistische Signifikanz steht als Instrument außer Frage, schon um nicht beliebig zu werden

    Man kann sich auch genauso gut auf irgendeinen anderen Wert als a = 0,05 verständigen und tut das auch in anderen Disziplinen. Diese Setzung der Irrtumswahrscheinlichkeit ist beliebig und willkürlich – eine Konvention.

  17. Gut angemerkt

    , Herr Anonym, 5% ist nur, damit der Studien Betreibende etwas in der Hand hat, in den Naturwissenschaften werden andere Ansprüche gestellt, Stichwort: 6 sigma.

  18. @ano nym, @Webbaer

    Das Signifikanzniveau wirkt sich ebenso wie die Stichprobengröße auf die Power aus. Wenn es Power-Probleme gibt, aber die Stichproben aus diversen Gründen nicht vergrößert werden können, müsste man über eine Erhöhung des Signifikanzniveaus (z.B. a = 0.10) diskutieren.

  19. @Christian Hoppe

    Sie haben recht, es wäre gemäss

    R = Prävalenz / (1 − Prävalenz)

    zu transformieren, und ich habe mich durch die odds austricksen lassen.

  20. @W, @Chr. Hoppe: Gedanken zum Wochenende

    @W: Wohl auch in Teilen der Industrie: 34,5 DPMO [1] liegt um den Faktor 10 über der Toleranzgrenze [2], daher der Rückruf? Vielleicht hat aber auch nur der zuständige Versicherer die durchschnittliche Schadenhöhe bei Wohnungsbränden mit der Häufigkeit multipliziert und davon die Summe der Versicherungsbeträge abgezogen …

    @Christian Hoppe: Die Industrie (insbesondere die Pharma-Industrie) hat kein Power-Problem, sondern ein Ertrags-Problem. Der Ertrag (vulgo: Profit) ist die hier maßgebliche Kennziffer. Die Fragestellung aus einzelökonomischer oder genauer aus Branchensicht ist: Wie muss ich das statistische Bewertungsparadigma ändern, um den Branchenanteil an der zur Verfügung stehenden gesellschaftlichen Kaufkraft zu maximieren.

    Natürlich ist die Vergrößerung von a dem zuträglich, weil damit die Nullhypothese (etwa: „Der neue Wirkstoff ist nicht wirksamer als der alte.“) häufiger verworfen werden kann. Dem leitenden ökonomischen Interesse wird dadurch Rechnung getragen. Das ist aber nicht identisch mit dem Interesse der ‚eigentlichen‘ Stakeholder (Patient, Arzt, Beitragszahler). Man braucht kein Gedankenexperiment und keine spieltheoretischen Überlegungen anzustellen, um zu erkennen, dass dieses Interesse der ‚eigentlichen‘ Stakeholder deshalb unter die Räder kommt, weil der Pharmazeutische Unternehmer ‚im Zweifel‘ lieber ein unwirksames Medikament verkauft und der hörige Patient teure Placeboimitate auch zu bezahlen bereit ist.

    [1] http://www.derwesten.de/wirtschaft/bosch-und-siemens-rufen-millionen-geschirrspueler-wegen-brandgefahr-zurueck-id8405283.html
    [2] http://de.wikipedia.org/wiki/Six_Sigma