Fishers exacte toets

Fishers exacte toets[1][2][3] is een statistische toets die toegepast wordt bij de analyse van kruistabellen. De toets is aanvankelijk ontwikkeld voor 2×2-tabellen en wordt in de praktijk ook voornamelijk gebruikt bij steekproeven van geringe omvang, omdat in die gevallen de benadering via de chi-kwadraattoets niet mogelijk is. De toets is echter geldig voor alle steekproefgroottes, hoewel het rekenwerk dat met de toets gepaard gaat, toeneemt bij grotere steekproeven. De toets is genoemd naar Ronald Fisher, die de toets heeft bedacht. De toets is een 'exacte' toets, omdat de verdeling van de toetsingsgrootheid onder de nulhypothese exact bekend is. Er wordt wel gezegd dat Fisher de toets ontworpen heeft naar aanleiding van de bewering van dr. Muriel Bristol, dat zij in staat zou zijn te proeven of de thee eerst in het kopje was gedaan of de melk.

Achtergrond

In de gesuggereerde aanleiding voor het ontwikkelen van de toets, kan elke keer dat dr. Bristol een kopje thee drinkt toegewezen worden aan een van de vier categorieën Cij in de volgende 2×2-tabel:

dr. Bristol denkt
thee eerstmelk eerst
Thee eerst C11C12
Melk eerst C21C22

Getoetst moet worden of dr. Bristol eenvoudigweg raadt, of dat er een verband is tussen de beide indelingen, wat inhoudt dat dr. Bristol (significant) vaker dan toevallig de juiste toedracht vertelt.

Algemeen betreft het een populatie die kan worden ingedeeld aan de hand van twee dichotome kenmerken A en B, waaruit een steekproef van omvang is getrokken, waarvan elementen in de categorie A=i en B=j vallen.

kenmerk A
01rijtotaal
kenmerk
B
0
1
kolomtotaal

In een experimentele situatie zullen de rij- (of de kolom)totalen vast gekozen worden. Fisher constateerde dat, onder de voorwaarde dat ook de kolom- (of de rij)totalen vastliggen, de gehele tabel bepaald wordt door een van de celaantallen, bijvoorbeeld door , en dat dit aantal onder de nulhypothese hypergeometrisch verdeeld is.

Voorbeeld

Het vermoeden bestaat dat relatief meer meisjes dan jongens op dieet zijn. En men wil dit aan de hand van een toets nagaan. Daarom wordt een aselecte steekproef onder 24 tieners, waarvan 12 jongens en 12 meisjes, genoemen, en ingedeeld aan de hand van de kenmerken 'jongen' of 'meisje', en 'op dieet' of 'niet op dieet'.

jongenmeisjerijtotaal
op dieet 19 10
niet op dieet 113 14
kolomtotaal121224

Als verondersteld wordt (nulhypothese) dat jongens en meisjes in gelijke mate op dieet zijn, dan is de vraag hoe extreem het waargenomen aantal is van 1 jongen van de 12 die op dieet is, terwijl in de hele steekproef 10 van de 24 op dieet zijn.

Hoe groot is dus de kans dat van 12 jongens en 12 meisjes, waarvan er 10 op dieet zijn, van die 10 er 1 of 0 een jongen is. Noem het aantal jongens onder die 10, dan is onder de nulhypothese hypergeometrisch verdeeld met parameters 10, 12 en 24. De overschrijdingskans van de gevonden steekproefuitkomst is dus:

Deze waarde is zo klein, dat geconcludeerd mag worden dat bijna zeker meer meisjes dan jongens op dieet zijn.

Noten

  1. Fisher, R. A. (1922) . On the interpretation of χ2 from contingency tables, and the calculation of P. Journal of the Royal Statistical Society 85 (1): 87–94 . DOI: 10.2307/2340521.
  2. Statistical Methods for Research Workers. Oliver and Boyd (1954). ISBN 0-05-002170-2.
  3. Agresti, Alan (1992) . A Survey of Exact Inference for Contingency Tables. Statistical Science 7: 131–153 . DOI: 10.1214/ss/1177011454.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.