Skip to main content
Top

2018 | OriginalPaper | Hoofdstuk

10. De nutteloze p-waarde

Auteur : Prof. dr. F. R. Rosendaal

Gepubliceerd in: Wat is er met de dokter gebeurd?

Uitgeverij: Bohn Stafleu van Loghum

share
DELEN

Deel dit onderdeel of sectie (kopieer de link)

  • Optie A:
    Klik op de rechtermuisknop op de link en selecteer de optie “linkadres kopiëren”
  • Optie B:
    Deel de link per e-mail

Samenvatting

In wetenschappelijk onderzoek wordt vaak geschermd met de p-waarde: als deze significant is, is de bevinding waar. Anders niet. De werkelijkheid is dat een significante p-waarde niets zegt over het waarheidsgehalte van een bepaalde conclusie en dat een niet-significante p-waarde zo mogelijk nog minder zegt over het klinisch belang van een onderzoeksresultaat. Het lijkt of p-waarden vooral populair zijn bij artsen. De noodzaak tot ja-neebeslissingen in de klinische praktijk (wel of niet insturen, wel of niet opereren) passen zij ook toe in het denken over wetenschappelijke resultaten, met een dichtome interpretatie van de p-waarde die echter contraproductief is.
Voetnoten
1
In de voorbeelden komt steeds maar één uitkomst voor, maar wat als zij allebei (kop en munt) in een serie voorkomen? Stel, we gooien de munt honderd keer en we observeren eenmaal kop en 99 maal munt en als we dit nog een keer doen 50 maal kop en 50 maal munt. Het is duidelijk dat we intuïtief bij het eerste experiment zouden besluiten dat de munt vals is en bij het tweede eerlijk. De waarschijnlijkheid van iedere uitkomst is weer met binomiale kansen te berekenen: de kans op eenmaal munt in 100 worpen is 100 * (1/2)1 * (1/2)99 = 7,9 * 10−29, dat wil zeggen, zoals verwacht een zeer kleine kans (0,000000000000000000000000000079). De kans op 50 maal kop en 50 maal munt is
$$ \left[ {\begin{array}{*{20}l} {100} \hfill \\ {50 * (1/2)^{50} * (1/2)^{50} } \hfill \\ \end{array} } \right] = 0,079 $$
Dit voelt verrassend, omdat we precies een verdeling van 50:50 waarnemen, waarvan we verwachtten dat deze, bij een eerlijke munt, de hoogste kans zou hebben. Het punt is dat er zo enorm veel mogelijke series van 100 worpen zijn, namelijk 10.000 verschillende combinaties, dat iedere uitkomst zeldzaam is. Bij 10.000 mogelijkheden is 7,9 % juist een vrij hoge kans. Dit is de reden dat de p-waarde niet gedefinieerd wordt als de kans op een bepaalde uitkomst, maar als de kans op deze of een meer extreme uitkomst (overschrijdingskans). In dit geval is (p ≥ 50) = 0,54 en we zouden concluderen dat er geen reden is aan te nemen dat er iets mis is met de munt.
 
2
De p-waarde is afhankelijk van de groepsgrootte. Stel dat we op zoek zijn naar deviaties van een 50/50-verdeling, bijvoorbeeld of mannen en vrouwen gelijkelijk verdeeld zijn over een bepaald beroep, dan kunnen grote verschillen al met een kleine steekproef gedetecteerd worden. Is de werkelijke verhouding 70/30, dan volstaat een steekproefgrootte van 50. Is de verhouding 60/40, dan zullen er al gauw 200 mensen nodig zijn en om een klein verschil van 51/49 op te kunnen pikken is een steekproef van meer dan 20.000 mensen vereist.
Ook hier zijn geen garanties. Geen enkele steekproefgrootte garandeert dat een bestaand verschil ook gezien wordt. De kans dát een vooraf gespecificeerd verschil in het onderzoek opgemerkt wordt, is te kwantificeren en wordt de ‘power’ genoemd, en 1-power de type-II-fout. De power is te vergelijken met de sensitiviteit van een diagnostische test. In deze voorbeelden is de power op 80 % gezet: wanneer het werkelijke verschil tussen mannen en vrouwen in een bepaald beroep 51–49 is, hebben we met een steekproef van 20.000 mensen 80 % kans op een significant resultaat. Willen we meer zekerheid (hogere power), dan moet de te onderzoeken groep worden vergroot. Dit kan ook worden omgedraaid: bij een zeer klein onderzoek leiden ook grote effecten niet tot een significant resultaat, terwijl bij een zeer groot onderzoek zelfs de kleinste verschillen significant worden.
 
Literatuur
2.
go back to reference Simon R. Confidence intervals for reporting results of clinical trials. Ann Intern Med. 1986;105:429–35.CrossRefPubMed Simon R. Confidence intervals for reporting results of clinical trials. Ann Intern Med. 1986;105:429–35.CrossRefPubMed
3.
go back to reference Goodman SN. Toward evidence-based medical statistics. 1: the P value fallacy. Ann Intern Med. 1999;130:995–1004.CrossRefPubMed Goodman SN. Toward evidence-based medical statistics. 1: the P value fallacy. Ann Intern Med. 1999;130:995–1004.CrossRefPubMed
4.
go back to reference Elm E von, Altman DG, Egger M, Pocock SJ, Gøtzsche PC, Vandenbroucke JP; STROBE Initiative. The Strengthening the Reporting of Observational Studies in Epidemiology (STROBE) statement: guidelines for reporting observational studies. PLoS Med. 2007 Oct 16;4:e296. Elm E von, Altman DG, Egger M, Pocock SJ, Gøtzsche PC, Vandenbroucke JP; STROBE Initiative. The Strengthening the Reporting of Observational Studies in Epidemiology (STROBE) statement: guidelines for reporting observational studies. PLoS Med. 2007 Oct 16;4:e296.
5.
go back to reference Boland PJ. A biographical glimpse of William Sealy Gosset. Am Stat. 1984;38:179–83. Boland PJ. A biographical glimpse of William Sealy Gosset. Am Stat. 1984;38:179–83.
6.
go back to reference Rosendaal FR, Bouter LM. Dwalingen in de methodologie XXXIX: de ultieme waarheid. Ned Tijdschr Geneeskd. 2002;146:304–9.PubMed Rosendaal FR, Bouter LM. Dwalingen in de methodologie XXXIX: de ultieme waarheid. Ned Tijdschr Geneeskd. 2002;146:304–9.PubMed
Metagegevens
Titel
De nutteloze p-waarde
Auteur
Prof. dr. F. R. Rosendaal
Copyright
2018
Uitgeverij
Bohn Stafleu van Loghum
DOI
https://doi.org/10.1007/978-90-368-2153-7_10