p-Werte und Konfidenzintervalle sind statistische Hilfsmittel zur Beurteilung von Studienresultaten – aber ihre kategorische Verwendung als Hüter der „statistischen Signifikanz“ ist fragwürdig. Eine Gruppe von namhaften Wissenschaftler setzt sich deshalb in diesem Pamphlet (1) gegen den gängigen Missbrauch von p-Werten als Alleinstellungsmerkmal für Qualität, Aussagekraft und häufig auch Publizierbarkeit von Studienresultaten ein.
Es geht den Autoren dabei explizit nicht darum, auch Resultate mit schwacher Evidenz als glaubwürdig zu akzeptieren oder einer falschen Interpretation Tür und Tor zu öffnen. Aber die Beurteilung eines bestimmten Resultates als relevant oder richtig bzw. falsch anhand eines arbiträr festgelegten statistischen Grenzwertes führt zu einem Publikationsbias und einer groben Verzerrung der wissenschaftlichen Literatur.
„Decisions to interpret or to publish results will not be based on statistical thresholds. People will spend less time with statistical software, and more time thinking.“
Amrhein et al, Nature, 2019
Welche Rezepte empfehlen die Autoren dagegen? p-Werte und Intervalle sind zwar nicht zu verbieten, aber die überdrehten Ansprüche an ihre Wertigkeit in ein neues Licht zu stellen. Dabei sollten die Resultate kritisch und immer im Kontext anderer Studien beleuchtet werden. Ein signifikanter Endpunkt alleine ist wertlos ohne die erklärenden Faktoren dahinter und ohne Kontext der praktischen Implikationen.
Es gilt der bekannte Spruch a p value is no substitute for a brain. Oder in den Worten der Autoren: „We must learn to embrace uncertainty“ – das gilt für die Mediziner ja immer wieder aufs Neue auch im klinischen Alltag.
Literatur
- Amrhein et al, Nature 2019; 567(7748):305-7