Nicht-Reproduzierbare Wissenschaft: Ein Interview mit der Reproducibility Initiative
BLOG: Bierologie
Das nicht nur die Psychologie mit dem Problem nicht reproduzierbarer Ergebnisse zu kämpfen hat ist spätestens seit letztem Jahr auch einer breiteren Masse bekannt. Forscher der Biotech-Firma Amgen hatten versucht 53 wegweisende Studien aus dem Feld der Krebsforschung zu reproduzieren und hatten in nur 6 Fällen Erfolg damit. Wer also versucht auf der Arbeit anderer Wissenschaftler seine eigene Arbeit aufzubauen, kann damit ziemlich auf die Nase fallen und dabei in nicht geringem Maße Zeit und Geld verschwenden.
Mit der Reproducibility Initiative, einem Zusammenschluss von Science Exchange, PLOS, Figshare und Mendeley, gibt es seit letztem Jahr eine Organisation die versucht die externe Überprüfung von wissenschaftlichen Studien für Wissenschaftler ansprechender zu machen und das Problem so anzugehen. Kurz gesagt können Wissenschaftler dort ihre Studien für die externe Validierung durch unabhängige Experten anmelden.
Elizabeth Iorns, CEO von Science Exchange, und William Gunn, Head of Academic Outreach bei Mendeley, stecken hinter der Idee und waren so freundlich mir ein paar Fragen zu ihrer Reproducibility Initiative zu beantworten und können das Konzept um einiges besser erklären als ich:
Das Problem der fehlenden Reproduzierbarkeit wurde in meiner Wahrnehmung vor allem in 2012 zu einem Thema mit großer Reichweite. Was war der Auslöser, der euch dazu gebracht hat sich damit zu beschäftigen?
William: Als Elizabeth und ich die Idee hatten waren wir auf einer Konferenz zum Thema Altmetrics [Anmerkung: Altmetrics beschäftigt sich damit wie man wissenschaftlichen Output abseits traditioneller Metriken erfassen kann. Wer mehr darüber erfahren will sollte das Blog von Beatrice lesen]. Elizabeth sprach davon dass wir, egal wie komplex unsere Metrik wird, niemals den systematischen Fehler der durch das einseitige Publizieren von fast ausschliesslich positiven Ergebnissen entsteht, beseitigen können. Ein Mechanismus der eine unabhängige Validierung von Ergebnissen erlaubt wird dafür benötigt. Gleichzeitig wollten wir aber eine Hexenjagd, die andere Projekte die sich mit dem Thema beschäftigen leider oft hervorbringen, vermeiden.
Die Reproducibility Initiative ist eine Kooperation zwischen verschiedenen Firmen. Wie kam es dazu?
William: Die ursprüngliche Idee war das Science Exchange sich um die Durchführung der Replikations-Versuche kümmern würde. Aber wir wollten auch die Daten online veröffentlichen, so dass jeder Zugriff darauf hat. Dafür ist Figshare der ideale Partner. Außerdem wollten wir eine zusätzliche Veröffentlichung als einen Teilnahmeanreiz für Wissenschaftler schaffen, PLOS fand die Idee einer Special Collection großartig. Der Baustein, der noch fehlte, war ein Gütesiegel zu schaffen und Metriken auf Artikelbasis zu schaffen mit denen man reproduzierte Wissenschaft nachverfolgen kann, das ist wo Mendeley ins Spiel gekommen ist.
Welche Vorteile habe ich als Wissenschaftler, wenn ich meine Studien an die Reproducibility Initiative schicke?
William: Als Wissenschaftler bekommt man eine zusätzliche Publikation in der PLOS Special Collection, und das ohne viel zusätzliche Arbeit. Außerdem profitiert man von der hohen Aufmerksamkeit und dem Interesse dass die Reproducibility Initiative geschaffen hat. Das Gütesiegel der extern überprüften Reproduzierbarkeit macht die Arbeit auch für potentielle Partner in der Industrie spannender. Und natürlich bekommt man das wohlige Gefühl das man dabei hilft, Wissenschaft für alle etwas besser zu machen.
Angenommen ich möchte einer meiner Studien über die Reproducibility Initiative überprüfen lassen. Wie funktioniert der Ablauf?
William: Wissenschaftler können ihre Studien auf der Website der Reproducibility Initiative einreichen. Außerdem haben wir gezielt Wissenschaftler in einigen Feldern, wie Brustkrebs-, Stammzellen-, ALS-Forschung etc. angesprochen. Die eingereichten Studien werden unter Beratung unseres wissenschaftlichen Beirats aufgeteilt in die Schlüsselexperimente und dann blind an einen der über 1000 Dienstleister, die an Science Exchange teilnehmen, vergeben. Dort führen Experten für die entsprechenden Techniken die Experimente durch, bezahlt nach den Dienstleistungen die sie erbringen. Für die Dienstleister gibt es also keinen Anreiz ein bestimmtes Ergebnis zu produzieren. Wenn der Dienstleister seine Arbeit abgeschlossen hat gehen die Ergebnisse zurück an die Wissenschaftler die ihre Studie reproduziert haben wollen. Diese können dann entscheiden ob sie die Ergebnisse in die PLOS Special Collection veröffentlichen wollen. Wissenschaftler, die sich über unsere Kontaktaufnahme in den Pool von Interessenten haben aufnehmen lassen, können auch Gelder von krankheitsbezogenen Stiftungen, die daran interessiert sind einen Teil der Arbeiten in ihrem Feld zu reproduzieren, bekommen.
Wie geht ihr mit methodischen Fehlern um? Werden Experimente 1:1 reproduziert? Viele Studien scheitern an der fehlerhaften Verwendung von Methoden, sei es statistisch, biologisch oder chemisch. Würde die Validierung die gleichen, “falschen” Methoden verwenden? Und könnte es ein Problem sein wenn solche Studien mit einem Gütesiegel ausgezeichnet werden?
William: Unser wissenschaftlicher Beirat wird überprüfen welche Experimente durchgeführt werden müssen um die wichtigsten Ergebnisse einer Studie zu reproduzieren. In manchen Fällen könnte es passieren dass wir das gleiche Ergebnis wie die Originalstudie bekommen, wenn wir eine fehlerhafte Methode verwenden und später wird klar das die Methode eigentlich nicht dafür geeignet war. Das Ziel der Reproducibility Initiative ist es nicht einzelne Methoden zu validieren. Wir wollen nur überprüfen dass sich die Originalergebnisse reproduzieren lassen. Mit anderen Worten: Die Initiative will die Exaktheit der Ergebnisse überprüfen, nicht deren Fehlerfreiheit.
In Zeiten sinkender Forschungsbudgets dürften die Kosten einer externen Validierung ein Problem sein, mit dem ihr zu kämpfen habt. Wieviel wird es in etwa Kosten eine Studie zu reproduzieren? Und haben Wissenschaftler die Möglichkeit für solche Fälle Gelder zu bekommen?
Elizabeth: Die Kosten die bei einer solchen Überprüfung anfallen sind überall eine Herausforderung. Aber es ist viel effektiver Forschung zu fördern die im Anschluss validiert wird, was bedeutet das andere Forscher auf diesen Ergebnissen aufbauen können, als einen riesigen Pool unvalidierter Forschung zu fördern, auf den niemand aufbauen kann. Es gibt eine erhebliche Verschwendung von Ressourcen momentan, da nur “neuartige” Wissenschaft gefördert wird. Viele Wissenschaftler, akademisch und in der Industrie, versuchen auf den Teil-Ergebnissen anderer Forscher aufzubauen, können Experimente nicht reproduzieren und scheitern daran. Und dann ziehen sie weiter, ohne dieses Wissen jemals zu dokumentieren. Das führt dazu dass es viele kleine Teil-Replikationen von Versuchen gibt, die allerdings niemals veröffentlicht werden und damit eine Verschwendung von Zeit und Geld sind.
Seine Studien extern über die Reproducibility Initiative überprüfen zu lassen ist dagegen viel effizienter. Basierend auf den Einreichungen, die wir bislang bekommen haben, schätzen wir das eine Replikation in etwa 10% des ursprünglich benötigten Budgets kosten wird. Das liegt daran das man nicht alle Experimente wiederholen muss um die wichtigsten Ergebnisse zu reproduzieren. Man muss auch keine explorativen Studien oder Methodenoptimierung durchführen, welche sonst einen großen Teil der ursprünglichen Ausgaben ausmachen. Dazu kommt dass die Validierung von Experten durchgeführt wird, welche möglichst effizient arbeiten wollen um ihre Kosten gering zu halten.
Wir schlagen Wissenschaftlern vor ihre Förderer auf zusätzliche Mittel für eine externe Validierung anzusprechen und in den nächsten Anträgen explizit Gelder für unabhängige Validierungen zu beantragen. Außerdem arbeiten wir mit mehreren fortschrittlichen Förderorganisationen zusammen um Gelder für Wissenschaftler zu sichern, welche die Kosten alleine nicht tragen können.
In der Vergangenheit die schlechte Reproduzierbarkeit wurde vor allem in den Feldern der Psychologie und der Biomedizin bemängelt. Hat die Reproducibility Initiative einen Fokus auf bestimmte Felder, oder seid ihr offen für alle Disziplinen?
William: Aktuell zielen wir auf Medizin und Biowissenschaften mit möglichen klinischen oder therapeutischen Anwedungen. Aber alle Studien, für die wir die benötigten Dienstleister über Science Exchange finden können, dürfen ihre Studien gerne bei uns einreichen.
Es gibt die Reproducibility Initiative noch nicht so lange, aber: Gibt es schon Wissenschaftler die eure Dienste in Anspruch genommen haben?
William: Wir haben noch keine Daten aus Replikationsversuchen. Aber auf unseren initialen Aufruf haben sich über 1300 Wissenschaftler gemeldet und über 1000 haben sich in den Pool von Interessenten aufnehmen lassen.
Disclaimer: Philipp & Ich haben 2011 einen von PLOS & Mendeley ausgelobten Preis gewonnen. Außerdem war William letztes Jahr so freundlich mich für ein paar Nächte auf seiner Couch schlafen zu lassen.
Feine Sache…
…und gutes Interview, vielen Dank! Mich hat neulich gerade auch das Buch von Steve Ayan über Verzerrungseffekte und ihre oft gravierenden Auswirkungen in Psychologie, Medizin & “Coaching” nachdenklich gemacht…
http://www.amazon.de/…;qid=1359022657&sr=8-1
Hoffentlich gelingt es Initiativen wie der RI, hier wegweisende Schneisen zu schlagen und neue Standards vorzubereiten.
Danke! Da sich dich Reproducibility Initiative momentan mehr auf Biomedizin konzentriert sei hier auch noch ein ein anderes Projekt erwähnt, welches sich mit fehlender Reproduzierbarkeit in der Psychologie beschäftigt: Das (verwirrenderweise sehr ähnlich klingende) Reproducibility Project, welches aus der Open Science-Bewegung kommt und ein Framework geschaffen hat mit dem sich Interessierte zusammenfinden können um Studien zu reproduzieren.
Namespace Allocation Initiative
Bastian Greshake schrieb (24. Januar 2013, 10:30):
> William [Gunn]: Die ursprüngliche Idee war das Science Exchange sich um die Durchführung der Replikations-Versuche kümmern würde. […] Unser wissenschaftlicher Beirat wird überprüfen welche Experimente durchgeführt werden müssen um die wichtigsten Ergebnisse einer Studie zu reproduzieren. In manchen Fällen könnte es passieren dass wir das gleiche Ergebnis wie die Originalstudie bekommen, wenn wir eine fehlerhafte Methode verwenden und später wird klar das die Methode eigentlich nicht dafür geeignet war. Das Ziel der Reproducibility Initiative ist es nicht einzelne Methoden zu validieren. Wir wollen nur überprüfen dass sich die Originalergebnisse reproduzieren lassen.
Wenn William Gunn u.a. die Beurteilung der Nachvollziehbarkeit und eventuellen
“Validität” von Methoden bzw. Messoperatoren einer anderen (wohl noch zu initiierenden) Initiative überlassen wollen, dann sollten sie dieser auch den Namen “Reproducibility Initiative” überlassen, und ihre eigene eher “Replication Initiative” nennen.
Ich sehe das Problem was du ansprichst, allerdings gibt es die dafür zuständige Initiative bzw. den Prozess dafür schon: Peer-Review sollte (zumindest in der Theorie) dafür sorgen das solche fehlerhaften Methoden vor der Publikation der Originalstudien erkannt werden.
Natürlich ist der Peer-Review-Prozess bei weitem nicht perfekt und wenn man sich veröffentlichte Publikationen anschaut muss man oft leider nicht lange suchen bis man Beispiele findet wo eine kritische Methodenbetrachtung nicht ausreichend stattgefunden hat. Aber das Problem lässt sich aber auch durch einen wissenschaftlichen Beirat einer anderen Organisation nicht wirklich lösen, dort würde +/- das gleiche Problem wie beim ersten Peer-Review-Schritt auftreten.
Irgendwelche cleveren Ideen wie man das umgehen könnte?
Von 53 Studien konnten nur 6 reproduziert werden?
Das ist sehr entlarvend. Und da fragt man in der Szene noch nach “Belegen” für Aussagen? Mit welchem Nutzen?
Und das kostet nicht nur Zeit und Geld, sondern auch Vertrauen und Sinn.
Es wäre jetzt sehr gut und angebracht, wenn jemand mal nicht nur auf solches hinweist, sondern auch darauf, was eine (Anzahl) nicht reproduzierbare Studien später Tatsächlich an Anwendung hat und also unzutreffende Tatsachen herstellt. Sprich: Welche nicht reproduzierbaren Studien fanden Anwendung und welche Folgen hat das für den “Nutzniesser” der Anwendung. (Nutzniesser, … sehr witzig in diesem Zusammenhang, nicht wahr?)
Die Wissenschaft müsste sich jetzt eigendlich ernsthaft Gedanken über ihren Stand machen.
Repeatedly half-reproducible cleverness
Bastian schrieb (24.01.2013, 14:36):
> allerdings gibt es die dafür zuständige Initiative bzw. den Prozess dafür schon: Peer-Review sollte (zumindest in der Theorie) dafür sorgen das solche fehlerhaften Methoden vor der Publikation der Originalstudien erkannt werden.
Das Problem der Nachvollziehbarkeit ist jedenfalls untrennbar mit dem Begriff der “Peer-Review” und insbesondere den Peers verbunden.
Wie schon Niels Bohr sagte:
> Natürlich ist der Peer-Review-Prozess bei weitem nicht perfekt und wenn man sich veröffentlichte Publikationen anschaut muss man oft leider nicht lange suchen bis man Beispiele findet wo eine kritische Methodenbetrachtung nicht ausreichend stattgefunden hat.
[…]
> Irgendwelche cleveren Ideen wie man das umgehen könnte?
Eine Idee dazu, die ich clever finde
([[YMMV]]), geht wohl zurück auf Jimbo Wales; etwa:
Die (mir) dann naheliegende Idee (“WikiPEN”), alles Öffentliche auch weiterhin der Peer-Review zu unterziehen, angefangen mit passendem Verwikilinken, fanden andere offenbar entschieden weniger clever …
(Wär’s nicht clever gewesen, wenn die, so wie jeder, die Möglichkeit gehabt hätten, ihre jeweilige Entschiedenheit anhand ihrer jeweils eigenen User-Preference-Settings auszudrücken, anstatt eine Initiative insgesamt und an sich … rückzuwerfen? Oder gar: damit
voranzubringen?)
[[Transparenz|Was Kulissen nicht sind]]
p.s.
Wie auf Stichwort liest man heute zu selben Thema:
http://www.spiegel.de/…gen-verlage-a-878969.html
Was irgendeine dieser Projekt-Ideen in die Lage versetzen sollte, mit dem oben von Bastian anerkannten “Problem beim Peer-Review-Prozess” besser umzugehen, als es Wikipedia könnte (wenn man sie ließe), ist mit allerdings (mir noch) nicht nachvollziehbar.
Von 53 Studien konnten nur 6 reproduziert werden?
Das ist sehr entlarvend. Und da fragt man in der Szene noch nach “Belegen” für Aussagen? Mit welchem Nutzen?
Und das kostet nicht nur Zeit und Geld, sondern auch Vertrauen und Sinn.
Es wäre jetzt sehr gut und angebracht, wenn jemand mal nicht nur auf solches hinweist, sondern auch darauf, was eine (Anzahl) nicht reproduzierbare Studien später Tatsächlich an Anwendung hat und also unzutreffende Tatsachen herstellt. Sprich: Welche nicht reproduzierbaren Studien fanden Anwendung und welche Folgen hat das für den “Nutzniesser” der Anwendung. (Nutzniesser, … sehr witzig in diesem Zusammenhang, nicht wahr?)
Die Wissenschaft müsste sich jetzt eigendlich ernsthaft Gedanken über ihren Stand machen.