Top

Gepubliceerd in:

2018 | OriginalPaper | Hoofdstuk

10. De nutteloze p-waarde

Auteur : Prof. dr. F. R. Rosendaal

Gepubliceerd in: Wat is er met de dokter gebeurd?

Uitgeverij: Bohn Stafleu van Loghum

Samenvatting

In wetenschappelijk onderzoek wordt vaak geschermd met de p-waarde: als deze significant is, is de bevinding waar. Anders niet. De werkelijkheid is dat een significante p-waarde niets zegt over het waarheidsgehalte van een bepaalde conclusie en dat een niet-significante p-waarde zo mogelijk nog minder zegt over het klinisch belang van een onderzoeksresultaat. Het lijkt of p-waarden vooral populair zijn bij artsen. De noodzaak tot ja-neebeslissingen in de klinische praktijk (wel of niet insturen, wel of niet opereren) passen zij ook toe in het denken over wetenschappelijke resultaten, met een dichtome interpretatie van de p-waarde die echter contraproductief is.

vorige hoofdstuk Beslissen voor later

volgende hoofdstuk Het ideale number needed to treat

In de voorbeelden komt steeds maar één uitkomst voor, maar wat als zij allebei (kop en munt) in een serie voorkomen? Stel, we gooien de munt honderd keer en we observeren eenmaal kop en 99 maal munt en als we dit nog een keer doen 50 maal kop en 50 maal munt. Het is duidelijk dat we intuïtief bij het eerste experiment zouden besluiten dat de munt vals is en bij het tweede eerlijk. De waarschijnlijkheid van iedere uitkomst is weer met binomiale kansen te berekenen: de kans op eenmaal munt in 100 worpen is 100 * (1/2)¹ * (1/2)⁹⁹ = 7,9 * 10⁻²⁹, dat wil zeggen, zoals verwacht een zeer kleine kans (0,000000000000000000000000000079). De kans op 50 maal kop en 50 maal munt is

$$ \left[ {\begin{array}{*{20}l} {100} \hfill \\ {50 * (1/2)^{50} * (1/2)^{50} } \hfill \\ \end{array} } \right] = 0,079 $$

Dit voelt verrassend, omdat we precies een verdeling van 50:50 waarnemen, waarvan we verwachtten dat deze, bij een eerlijke munt, de hoogste kans zou hebben. Het punt is dat er zo enorm veel mogelijke series van 100 worpen zijn, namelijk 10.000 verschillende combinaties, dat iedere uitkomst zeldzaam is. Bij 10.000 mogelijkheden is 7,9 % juist een vrij hoge kans. Dit is de reden dat de p-waarde niet gedefinieerd wordt als de kans op een bepaalde uitkomst, maar als de kans op deze of een meer extreme uitkomst (overschrijdingskans). In dit geval is (p ≥ 50) = 0,54 en we zouden concluderen dat er geen reden is aan te nemen dat er iets mis is met de munt.

De p-waarde is afhankelijk van de groepsgrootte. Stel dat we op zoek zijn naar deviaties van een 50/50-verdeling, bijvoorbeeld of mannen en vrouwen gelijkelijk verdeeld zijn over een bepaald beroep, dan kunnen grote verschillen al met een kleine steekproef gedetecteerd worden. Is de werkelijke verhouding 70/30, dan volstaat een steekproefgrootte van 50. Is de verhouding 60/40, dan zullen er al gauw 200 mensen nodig zijn en om een klein verschil van 51/49 op te kunnen pikken is een steekproef van meer dan 20.000 mensen vereist.

Ook hier zijn geen garanties. Geen enkele steekproefgrootte garandeert dat een bestaand verschil ook gezien wordt. De kans dát een vooraf gespecificeerd verschil in het onderzoek opgemerkt wordt, is te kwantificeren en wordt de ‘power’ genoemd, en 1-power de type-II-fout. De power is te vergelijken met de sensitiviteit van een diagnostische test. In deze voorbeelden is de power op 80 % gezet: wanneer het werkelijke verschil tussen mannen en vrouwen in een bepaald beroep 51–49 is, hebben we met een steekproef van 20.000 mensen 80 % kans op een significant resultaat. Willen we meer zekerheid (hogere power), dan moet de te onderzoeken groep worden vergroot. Dit kan ook worden omgedraaid: bij een zeer klein onderzoek leiden ook grote effecten niet tot een significant resultaat, terwijl bij een zeer groot onderzoek zelfs de kleinste verschillen significant worden.

Rothman KJ. Significance questing. Ann Intern Med. 1986;105:445–7.CrossRefPubMed

Simon R. Confidence intervals for reporting results of clinical trials. Ann Intern Med. 1986;105:429–35.CrossRefPubMed

Goodman SN. Toward evidence-based medical statistics. 1: the P value fallacy. Ann Intern Med. 1999;130:995–1004.CrossRefPubMed

Elm E von, Altman DG, Egger M, Pocock SJ, Gøtzsche PC, Vandenbroucke JP; STROBE Initiative. The Strengthening the Reporting of Observational Studies in Epidemiology (STROBE) statement: guidelines for reporting observational studies. PLoS Med. 2007 Oct 16;4:e296.

Boland PJ. A biographical glimpse of William Sealy Gosset. Am Stat. 1984;38:179–83.

Rosendaal FR, Bouter LM. Dwalingen in de methodologie XXXIX: de ultieme waarheid. Ned Tijdschr Geneeskd. 2002;146:304–9.PubMed

Rosendaal FR. The p-value: a clinician’s disease? Eur J Intern Med. 2016;35:20–3.CrossRefPubMed

Titel: De nutteloze p-waarde
Auteur: Prof. dr. F. R. Rosendaal
Uitgeverij: Bohn Stafleu van Loghum
Boek: Wat is er met de dokter gebeurd?
Print ISBN: 978-90-368-2152-0

Elektronisch ISBN: 978-90-368-2153-7

Copyright: 2018
DOI: https://doi.org/10.1007/978-90-368-2153-7_10

Bohn Stafleu van Loghum

Deel dit onderdeel of sectie (kopieer de link)

Samenvatting

Log in om toegang te krijgen