We need to unf*ck applied Statistics. Tschüss Signifikanztests.

SozialwissenschaftlerInnen, ÖkonomInnen, MedizinierInnen — alle kennen es: Ist mein Effekt signifikant? Ist der p-Wert unter 0.05? Stehen da drei Sterne neben dem Ergebnis? Das sind die Signifikanztests, die oft darüber entscheiden ob eine Arbeit erfolgreich oder eine Studie die Veröffentlichung wert ist.

Vor zwei Wochen haben über 800 StatistikerInnen im Nature Magazin das Ende der Signfikanztests ausgerufen. Meine Überschrift klingt drastisch, der Nature-Kommentar klingt aber entsprechend. Hier fasse ich drei Gründe zusammen, warum wir nicht mehr von „statistisch signifikant“ sprechen sollten und was die Alternativen sind.

1. Arbiträre Regeln

Wenn von Siginfikanztests die Rede ist, dann geht es um die Interpretation eines Nullhypothesen-Tests. In der Nullhypothese wird meistens angenommen, dass es keinen Effekt oder Unterschied gibt. Der p-Wert wird als Richtwert angenommen dafür, ob die Nullhypothese mit den Daten vereinbar ist; wenn die Daten stark der Nullhypothese widersprechen, dann verwirft man die Nullhypothese und nimmt an, dass es einen Unterschied gibt (heißt: der Unterschied nicht nur zufällig entstanden ist). Was heißt aber „vereinbar“ oder „nicht vereinbar“ mit der Nullhypothese? Dafür wird seit etwa 100 Jahren meistens der Cut-Off p < 0.05 genutzt. Wenn der p-Wert unter 0.05 liegt wird die angenommen, dass es einen “wahren” Unterschied gibt. Das ist höchst problematisch.

Ein (fiktives) Beispiel: Studie A untersucht den Zusammenhang zwischen Rechenfähigkeiten von SchülerInnen in Bayern und Berlin (gemessen über einen standardisierten Test mit einer Skala von 0–100). Studie A findet einen kleinen Unterschied — sagen wir 1.2 Punkte- zwischen den beiden Gruppen, aber der p-Wert ist 0.07. Also fasst die Studie zusammen: „Der Unterschied ist nicht signifikant, es gibt keinen Unterschied zwischen SchülerInnen in Bayern und Bremen“.

Die Studie B untersucht den gleichen Zusammenhang und findet einen leicht größeren Unterschied zwischen den zwei Gruppen -sagen wir 1.7 Punkte- und schlussfolgert bei einem p-Wert von 0.03 zusammen: „Es gibt einen signifikanten Unterschied zwischen den beiden Gruppen“.

Die Studie C schaut sich beide Studien an und fasst zusammen: „Zu dem Thema gibt es zwei sich widersprechende Studien“.

Alle drei Schlussfolgerungen sind falsch! Der Cut-Off von 0.05 ist komplett arbiträr — die absoluten Schlussfolgerungen nicht richtig. Der Cut-Off ist eine Heuristik, wird aber oft als einziger Referenzpunkt missbraucht. In einer Meta-Studie von 751 wissenschaftlichen Arbeiten wurde festgestellt, dass in 51 % (!) der Fälle der p-Wert falsch interpretiert wurde.

Source: https://www.nature.com/articles/d41586-019-00857-9

2. Der p-Wert ist schwierig zu interpretieren

Das bringt mich zum zweiten Punkt. Wie interpretiert man eigentlich den p-Wert? Oft wird der p-Wert als Wahrscheinlichkeit interpretiert, dass die Nullhypothese zutrifft. Wenn also der p-Wert hoch ist, muss die Wahrscheinlichkeit hoch sein, dass es keinen „wahren Unterschied“ gibt. Diese Interpretation ist aber falsch. Der p-Wert gibt an, ob ein gemessenes Resultat auch durch Zufall erklärt werden kann, aber sagt nichts über die Korrektheit der Hypothese aus. Ebenso wird fälschlicherweise angenommen, dass ein kleiner p-Wert anzeige, dass die Ergebnisse in einer neuen Studie replizieren lassen.

Der Grund warum p-Werte so schwierig zu interpretieren sind, ist dass sie auf verschiedenen nicht-intuitiven Annahmen beruhen. Die frequentistische Statistik basiert auf der Annahme von unendlich vielen aufeinanderfolgenden hypothetischen Experimenten mit hypothetischen Populationen. Ein einzelner p-Wert ist damit auch nur Teil einer hypothetischen Verteilung und lässt keinen Schluss über die Richtigkeit einer Hypothese zu.

Das der p-Wert falsch interpretiert wird ist nicht nur ein Problem in der Einführung in die Statistik, sondern auch gestandene WissenschaftlerInnen scheitern daran. (sehr zu empfehlen dieses Video von FiveThiryEight: “Not even scientists can explain p-values”).

3. p-hacking und Replikationskrise

Das Problem der p-Werte und Hypothesentests, in seiner ganzen Pracht, wurde vor 10 Jahren im Rahmen der sogenannten Replikationskrise in der Psychologie deutlich. In einer Studie 2015 versuchten Wissenschaftler um Brian Nosek Psychologiestudien (in renommierten Journals) zu replizieren. Über die Hälfte der Studien die „signifikante Effekte“ fanden konnten nicht repliziert werden! Die Replikationskrise, in der die Sozialwissenschaften steckt, könnte sogar noch akuter sein.

Für die Replikationskrise gibt es mehrere Gründe, aber einer ist das p-hacking. Wenn das Ziel ist signifikante Effekte (aka p-Wert < 0.05) zu produzieren, dann gibt es verschiedene Wege die Daten und Modelle so lange anzupassen, bis es passt. Die Fokussierung auf Signifikanztests setzt damit die falschen Anreize.

Was ist die Alternative?

Die AutorInnen des Nature-Kommentars finden drastische Worte für die derzeitige Praxis von Signifikanztests: „We’re frankly sick of seeing such nonsensical ‘proofs of the null’“ & „it’s time for statistical significance to go.“ Aber was sind Alternativen?

Die Autoren machen ein paar gute Vorschläge. Allen voran, müssen wir lernen mit der Unsicherheit umzugehen. Kategorische Cut-Off Punkte gaukeln uns eine Objektivität vor, die es nicht gibt. Statt einen p-Wert anzugeben, schlagen sie vor, Konfidenzintervalle der Schätzungen anzugeben. Weiterhin sollte man sich viel eher auf die Effektgröße konzentrieren und nicht darauf ob es einen Effekt gibt. Was hilft es, wenn ein Unterschied „statistisch signifikant“ ist, aber in der Praxis keine Relevanz hat (Siehe das Beispiel der beiden Studien oben: Welche Schlussfolgerung kann man aus einem marginalen Unterschied überhaupt ziehen?).

Ich würde ich noch zwei Ansätze hinzufügen. Die p-value hacking ist insbesondere bei der statistischen Modellierung ein ernst zunehmendes Problem. Ein Lösungsansatz ist, dass Forscher ihre statistischen Methoden und Modelle registrieren, bevor sie die Analysen durchführen (Pre-Registration). Damit geht auch einher, dass Studien anschließend veröffentlicht werden — egal ob mit großen oder kleinen Effekten.

Der zweite Vorschlag ist eine verstärkte Nutzung von bayesianischen Verfahren. Einer der fundamentalen Probleme der frequentistischen Wahrscheinlichkeit ist, dass sie so schwierig zu interpretieren ist; sie entspricht nicht dem wie man normalerweise im Alltag über Wahrscheinlichkeit spricht (= wie plausibel es ist, dass eine Situation oder eine Proposition eintritt). Das ist bei der bayesianischen Statistik anders. Hier kann man die Wahrscheinlichkeit direkt interpretieren und sie entspricht eher unserem Alltagsverständnis. Das ist aber ein Thema für einen anderen Blogpost.