Die Replikationskrise und Open Science

Source: https://scienceandtechblog.com/wp-content/uploads/2019/12/70254/can-a-research-accelerator-solve-the-psychology-replication-crisis.jpg

Im Folgenden lernen wir die Replikationskrise und die ihr zugrundeliegenden Ursachen kennen. Wir schauen uns außerdem die Grundsätze der Open Science Bewegung an, die der Bewältigung der Replikationskrise dienen.

Die vorliegenden Informationen richten sich an alle Interessierten, aber vor allem an Studierende, die in der Planung ihrer Abschlussarbeiten sind. Diese Seite soll einen kurzen Überblick sowie weiterführende Verweise zu detaillierteren Quellen geben.

Was ist die Replikationskrise?

Bevor wir zur Replikationskrise kommen, gehen wir einen Schritt zurück und schauen uns an, wie in der Wissenschaft grundsätzlich Wissen generiert wird.

Wenn wir versuchen, etwas über die Welt herauszufinden, stellen wir Theorien über sie auf. Um diese zu validieren, erstellen wir ein Forschungsdesign, mit dem wir unsere abgeleiteten Hypothesen überprüfen können. Da wir nur selten in der Lage sind, unsere Hypothese an allen Entitäten zu testen, greifen wir auf Stichproben zurück. An dieser Stelle wird die Inferenzstatistik wichtig. Sobald wir unsere Forschungsfrage haben, und wissen, wie und an welchen Daten wir sie testen wollen, brauchen wir ein Paradigma, das unseren Erkenntnisgewinn lenkt. Während wir nicht in der Lage sind, zu beweisen, dass eine Hypothese für alle (zukünftigen) Beobachtungen wahr ist (z.B., dass alle Schwäne auf der ganzen Welt und für alle Zeiten weiss sind), können wir sie als falsch enthüllen (z.B., wenn wir einen schwarzen Schwan sehen). Dieses Prinzip wird als Falsifikationismus bezeichnet. Folglich spiegelt all unser Wissen nur aktuelle empirische Erkenntnisse wider („State of the art“)

Um den State of the Art zu aktualisieren (d.h. unser Wissen zu erweitern), benötigen wir solide empirische Ergebnisse. Dafür sollten unsere Studienergebnisse reproduzierbar und replizierbar sein.

Was ist der Unterschied zwischen Reproduzierbarkeit und Replizierbarkeit?

Reproduzierbarkeit bedeutet, dass Andere in der Lage sind, die gleichen Ergebnisse wie in der ursprünglichen Studie erzielen zu können. Dies erfordert Daten (oder Code) und Kenntnisse über deren Verarbeitung und Analyse. Die Reproduzierbarkeit liegt in unserer Verantwortung: Wir müssen die notwendigen Ressourcen und Informationen bereitstellen, damit Andere unsere Ergebnisse reproduzieren können.

Replizierbarkeit bedeutet, dass Andere ähnliche Ergebnisse in einer neuen Stichprobe erhalten können, wenn sie das Forschungsdesign und die Analyse der ursprünglichen Studie anwenden. Dies erfordert Studienmaterialien und Kenntnisse über die Durchführung der Studie sowie die Verarbeitung und Analyse der erhaltenen Daten. Die Reproduzierbarkeit liegt nicht direkt in unserer Verantwortung: Es ist möglich, dass ein Effekt trotz bester wissenschaftlicher Praxis nicht repliziert werden kann.

Bei beiden Konzepten geht es grundsätzlich um Transparenz, die für eine gute wissenschaftliche Praxis und Zusammenarbeit unerlässlich ist. Ausführlichere Informationen über institutionsspezifische Richtlinien zu Reproduzierbarkeit finden wir unter OSF.

Nichtsdestotrotz können Studienergebnisse teilweise nicht repliziert werden. Das kann an folgenden Gründen liegen:

Unterschiede zwischen der Original- und der Replikationsstudie
das Ergebnis der Originalstudie war ein falsch positives Ergebnis (d.h., dass es trotz des positiven Ergebnisses in Wahrheit keinen Unterschied gibt) oder
das Ergebnis der Replikationsstudie war ein falsch negatives Ergebnis (d.h., dass es trotz des negativen Ergebnisses in Wahrheit einen Unterschied gibt).

Bei dem Versuch, 100 experimentelle und Korrelationsstudien zu replizieren, stellte die Open Science Collaboration (2015) fest, dass nur 36% der Replikationen statistisch signifikante Ergebnisse aufwiesen, obwohl ein wesentlich höherer Prozentsatz an erfolgreichen Replikationen zu erwarten war. Aus diesem Grund sprechen einige Leute von einer Replikationskrise. Wenn wir Befunde nicht replizieren können, wie können wir dann auf das Wissen vertrauen, das auf diesen Befunden beruht?

Die gezielte Erzeugung signifikanter Ergebnisse schadet nicht nur dem wissenschaftlichen Fortschritt und dem allgemeinen Vertrauen in die Wissenschaft. Die Folgen falsch positiver Befunde dehnen sich auch auf die breite Öffentlichkeit aus. Diese erfährt nicht so schnell von fehlgeschlagenen Replikationen wie von den Ergebnissen der ursprünglichen Studie. Nicht repliziertes Wissen kann lange Zeit bestehen bleiben.

Nachdem wir einen kurzen Überblick über die Grundlagen der Wissenschaft und die Replikationskrise erhalten haben, wollen wir uns nun den möglichen Gründen der Krise zuwenden.

Mögliche Gründe für die Replikationskrise

Grundsätzlich haben Forschende viele Freiheitsgrade, wenn es um die Messung, Verarbeitung und Analyse von Daten geht. Folglich können sich die Ergebnisse oft dramatisch unterscheiden. Es gibt einige allgemeine Versuche, diese Probleme zu überwinden (z.B. durch Optimierung der retrodiktiven Validität; mehr Informationen dazu hier), aber diese sind in der Praxis nicht immer durchführbar (z.B. außerhalb der experimentellen Forschung). Viel schlimmer noch, über diese allgemeinen Probleme hinaus gibt es zweifelhafte Forschungspraktiken, deren wir uns bewusst sein sollten. Im Folgenden lernen wir einige von ihnen kennen. Diese schließen sich nicht unbedingt gegenseitig aus.

p-hacking

Dies ist vielleicht das offensichtlichste Beispiel für eine schlechte Forschungspraxis. Im Allgemeinen beschreibt p-hacking die Praxis, eine große Anzahl von Tests innerhalb eines gegebenen Datensatzes durchzuführen, um signifikante Ergebnisse zu erhalten. Je mehr Tests wir (ohne Korrektur) durchführen, desto wahrscheinlicher ist es, dass wir rein zufällig ein statistisch signifikantes Ergebnis erhalten. Darüber hinaus kann p-Hacking auch Praktiken wie das absichtliche Weglassen von Daten aus einer bestimmten Analyse umfassen.

Selektives Berichten von (abhängigen) Variablen

Obwohl das Weglassen (abhängiger) Variablen aus der Analyse wie eine harmlose Praxis erscheinen mag, verringert es die Wahrscheinlichkeit einer erfolgreichen Replikation. Beispiel: Die Auswahl bestimmter Items, die „in die richtige Richtung tendieren“, wenn die gesamte Skala keine signifikanten Ergebnisse liefert. Damit greifen Forschende möglicherweise auf Zufallsergebnisse zurück, die sich nicht replizieren lassen (neben der Verletzung von Testkriterien, z.B. Reliabilität und Validität des Messinstruments).

Hypothesizing After the Results are Known (HARKING)

Unsere Hypothesen erst zu formulieren, nachdem wir unsere Ergebnisse kennen, ist eine besonders schlechte Praxis. Bei der Formulierung von Post-Hoc-Hypothesen verschwimmt die Unterscheidung zwischen explorativer und konfirmatorischer Analyse. Während erstere dazu dient, Hypothesen zu generieren, dient letztere dazu, sie zu testen. Das Testen von Hypothesen anhand eines Datensatzes, der auch zur Generierung dergleichen verwendet wurde, führt zwangsläufig zu irreführend positiven Ergebnissen.

Nur signifikante Ergebnisse berichten

Wie bereits erwähnt, ist die Durchführung mehrerer Tests (p-Hacking) sowie auch die Anwendung vieler verschiedener Analysemethoden, bis sich ein Ergebnis als signifikant herausstellt, eine schlechte Praxis. Außerdem sollten wir immer alle durchgeführten statistischen Analysen berichten.

Mehr Daten sammeln nachdem die bestehenden Daten keine positiven Ergebnisse hervorgebracht haben

Ebenso ist es keine gute wissenschaftliche Praxis, immer mehr Daten zu sammeln, bis wir ein signifikantes Ergebnis erhalten. Datenerfassung und -analyse (d.h. Inferenzstatistik) sollten getrennt sein.

Publikations Bias

Aber es geht nicht nur um individuelle Praktiken. Um eine erfolgreiche Karriere als Forschender zu haben, muss man viel publizieren und von Anderen zitiert werden (d.h. man braucht einen hohen Impact-Faktor). Leider begünstigen diese Faktoren die Veröffentlichung besonders unerwarteter oder neuartiger Ergebnisse, ohne sicherzustellen, dass die Ergebnisse auch repliziert werden.

Was können wir tun, um die Situation zu verändern?

Strategien zur Bewältigung der Replikationskrise

Im Hinblick auf die vorangegangenen Gründe, gibt es ein wichtiges Zitat, das wir uns merken sollten:

“The first principle is that you must not fool yourself – and you are the easiest person to fool.” (R. Feynman)

Das bedeutet, dass, es sehr leicht ist, uns selbst zu betrügen, obwohl wir es wirklich richtig machen wollen, d.h. wirklich das beste und genaueste Ergebnis aus unsere Daten herausholen wollen.

Vergleichen wir das einmal mit dem Beruf eines/r Piloten/Pilotin: Sicherlich weiß er/sie, wie man ein Flugzeug fliegt. Doch wenn er/sie ein Flugzeug startet, geht er/sie eine Checkliste durch: Ist das Flugzeug aufgetankt? Sind die Lichter eingeschaltet, usw.? Sicherlich wirkt das trivial. Aber wie bei einem/r Piloten/Pilotin, der/die ein Flugzeug mehrmals am Tag startet, ist es vielleicht leicht, einige wichtige Dinge einfach zu vergessen.

Glücklicherweise gibt es diese Checklisten auch für die Psychologie: zum Beispiel folgende Artikel in nature und frontiers in Psychology. Wir sollten transparent sein und festhalten, was genau wir getan haben, damit, wenn unser Flugzeug abstürzt, zumindest andere aus unseren Fehlern lernen können.

Darüber hinaus gibt es eine Reihe anderer Werkzeuge, die es uns ermöglichen, uns nicht selbst zu täuschen. Einige von diesen werden wir im Folgenden kennen lernen.

Open Science Framework

OSF ist eine kostenlose Open-Source-Webanwendung, die Forschungsprojekte in allen Phasen des Forschungszyklus verwaltet und die von den Forschenden verwendeten Werkzeuge miteinander verbindet. Im Folgenden lernen wir relevante Funktionen zur Förderung von Open Science kennen, die von OSF angeboten werden.

Präregistrierung

Präregistrierung bedeutet, dass wir unser Forschungsvorhaben offen zugänglich machen, bevor wir mit der Datenerfassung beginnen. Dies erleichtert den Zusammenschluß von Forschungsprojekten. Weitere Vorteile sind eine klare Gliederung, die uns vorausschauend denken lässt, die leichtere Veröffentlichung von nicht signifikanten Ergebnissen und der „Schutz“ vor GutachterInnen, die eine Anpassung Ihrer Hypothesen fordern. Außerdem wird die Unterscheidung zwischen explorativer und konfirmatorischer Forschung explizit gemacht.

Das OSF stellt eine ausführliche Dokumentation zur Vorregistrierung zur Verfügung (weitere Informationen finden wir hier). Wenn Sie noch Hilfe bei der Vorregistrierung Ihrer Studie benötigen, können Sie sich für unsere Methodenberatung anmelden.

Offen zugängliche Daten & Materialien

Das Veröffentlichen unserer Daten und Materialien ist ein integraler Bestandteil von Open Science. Wir sollten sicherstellen, dass wir ein Codebuch zur Verfügung stellen, unseren Workflow (Datenverarbeitung und -analyse) dokumentieren und unsere Daten lizenzieren (z.B. unter Creative Commons License). Wir sollten versuchen, so viele Informationen, Materialien und Daten wie möglich zu präregistrieren. Detaillierte Informationen über die Implementierung finden wir auf der OSF-Seite von Prof. Dr. Kai T. Horstmann (z.B. für Erstellung eines Codebuchs und einen reproduzierbaren Workflow).

Badges

Trotz der wachsenden Open Science Community ist die Einhaltung der Richtlinien in der Regel nicht verpflichtend. Das OSF hat zusätzlich Abzeichen („Badges“) als Anreiz für individuelles Verhalten etabliert. Diese können für unsere Forschungsartikel von Zeitschriften vergeben werden. Wir können Abzeichen für Präregistrierung, offene zugängliche Datensätze und Materialien erhalten. Hier finden wir ausführlichere Informationen dazu.