Percentiel

In de statistiek is een percentiel van een dataset een van de in principe 99 punten die de geordende dataset in 100 delen van gelijke grootte verdelen. Het -de percentiel is dan een getal dat de % kleinere data van de % grotere scheidt. Het 95e percentiel is bijvoorbeeld een getal zodanig dat 95% van de data kleiner is of eraan gelijk en 5% groter of eraan gelijk. Veelal zal een percentiel een van de data zelf zijn, maar in sommige gevallen is het percentiel het gemiddelde van twee opeenvolgende data. Percentielen zijn op soortgelijke wijze ook gedefinieerd voor kansverdelingen.

Definitie

Laat een reëel getal tussen 0 en 1 zijn.

Het -de percentiel van de dataset bestaande uit de getallen , is het getal dat voldoet aan:

  • ten minste van de getallen zijn niet groter dan
  • ten minste van de getallen zijn niet kleiner dan .

Het -de percentiel van de kansverdeling van de stochastische variabele is het getal dat voldoet aan:

en

Gerelateerde termen

Percentielen zijn kwantielen die bij een percentage behoren. Percentielen verdelen een dataset in 100 ongeveer gelijke delen. Het 50e percentiel wordt ook de mediaan genoemd. Het 25e, 50e en 75e percentiel worden ook respectievelijk het 1e, 2e en 3e kwartiel genoemd. Decielen zijn de percentielen die bij de percentages 10, 20, ... , 90 behoren.

Berekening

De bovenstaande definitie leidt niet in alle gevallen tot een eenduidige bepaling van de percentielen. Er worden verschillende berekeningswijzen gehanteerd. Hieronder worden tien verschillende methoden besproken. Een voorbeeld laat zien hoe divers de uitkomsten van de berekeningen kunnen zijn.

Dichtstbijzijnde rangnummer

De geordende steekproef bestaat uit de van klein naar groot geordende data. Voor het -de percentiel neemt men het element in de dataset met het rangnummer dat "het dichtst" bij ligt, en wel, met :

Verschillende softwarepakketten: verschillende percentielen

Hoewel de bovenstaande geijkte crf-definitie van het -de percentiel een eenduidig bepaalde waarde oplevert, blijken softwarepakketten en rekenmachines, afhankelijk van de specifieke dataset, verschillende waarden voor hetzelfde percentiel te geven. De percentielcalculator op de website (1) biedt maar liefst acht verschillende methoden voor het berekenen van percentielen.

TI-83 en TI-84: Exclusief de mediaan

Iets van de problematiek van praktische percentielberekeningen zien we bij de berekening van kwartielen door de rekenmachines TI-83 en TI-84, die veel in het middelbaar onderwijs worden gebruikt. Voor de dataset 1, 2, ... , 9 geven deze rekenmachines en , terwijl volgens de crf-definitie en . Datzelfde verschijnsel treedt op bij alle datasets met .

Dat probleem is op te lossen door in voorkomende gevallen de kwartielen te berekenen, waarbij de mediaan inclusief zowel tot de linkerhelft als de rechterhelft van de dataset wordt gerekend.

Het instructieboekje van de TI-83 vermeldt dat de mediaan is van de punten tussen en , en dat de mediaan is van de punten tussen en . Bij oneven wordt echter de mediaan niet meegerekend, noch in de linker-, noch in de rechterhelft. Wel worden de kleinste en de grootste waarde in de rij meegerekend. De relatie tussen de geijkte percentielen en en is zwak. Bij bijvoorbeeld de dataset 1, 2, ... , 11 vallen drie punten uit de dataset: 3, 6 en 9, die immers medianen van een oneven aantal getallen zijn. Daardoor ligt links van slechts 18,2% van de getallen en niet 25%. We zien dat door bepaalde keuzes percentielpunten (in dit geval kwartielen) anders berekend worden dan volgens de hierboven besproken geijkte crf-methode.

Referentiepunten

In softwarepakketten worden diverse methoden gebruikt om percentielen van niet-geklasseerde data te berekenen. Dat er voor verschillende berekeningen wordt gekozen, heeft te maken met een eigenaardigheid van de crf-definitie. Alle -de percentielen, met zijn volgens deze definitie . Voor veel percentages vallen de percentielen dus samen met hetzelfde datapunt. Dat is een gevolg van het discrete karakter van een eindige dataset. Als de dataset een steekproef is uit een continue stochast en een percentiel van de dataset een schatting is van de percentiel van de populatie, dan is dat samenvallen van percentielen ongewenst. Dat is de reden dat percentielen vaak via lineaire interpolatie worden berekend. Feitelijk vervangt men dan de discontinue crf-grafiek door een continue polygoon. Men kan daarbij echter op verschillende manieren te werk gaan, waarbij verschillende methoden ook verschillende waarden voor hetzelfde percentiel kunnen opleveren.

Om verschillende methoden om percentielen te berekenen te kunnen onderscheiden, gebruiken we een referentiepunt, een getal, zoals , dat is afgeleid van en . We onderscheiden van het betreffende referentiepunt het gehele deel en de fractie , zodat . Zie ook de websites (1) en (2).

Methode A

Bij deze methode is .

Submethode A1: (bovenstaande geijkte crf-methode)

Submethode A2: (variant op geijkte crf-methode, zonder gemiddelde)

Submethode A3: (gewogen gemiddelde)

Methode B

Bij deze methode is .

Submethode B1: (PERCENTIEL.EXC in Microsoft Excel 2013)

Submethode B2: (gewogen gemiddelde)

Submethode B3: (Excel 2007 en oudere versies)

Methode C

Bij deze methode is .

(dichtstbijzijnde datapunt, geen lineaire interpolatie)

Het afronden van deze methode vindt op de gebruikelijke wijze plaats, maar om statistische vertekening te voorkomen, is afronden op even hier aan te raden.

Methode D

Bij deze methode is .

Methode E

Bij deze methode is .

(PERCENTIEL.INC in Microsoft Excel 2013)

Voorbeeld

Gegeven de volgende dataset van 13 geordende getallen:

Rangnummer12345678910111213
Data123581321343545586677

Met behulp van de negen besproken methoden en de TI-83 berekenen we de drie kwartielen en het 40e percentiel:

Methode:A1A2A3B1B2B3CDETI-83
553,54443554
1313911101381212-
21211721212121212121
454542,551,551,551,545454551,5

We zien dat afhankelijk van de berekeningsmethode, voor bovenstaande dataset, het 40e percentiel kan variëren van 8 tot 13. Opmerkelijk is dat methode A3 een mediaan oplevert die niet het middelste datapunt is.

Microsoft Excel: Inclusieve en exclusieve percentielen

De versie 2013 van Excel kent zowel methode B1 als methode E voor het berekenen van percentielpunten. Het verschil tussen de rangnummers van een exclusief berekende percentiel en een inclusief berekende percentiel is: . Het inclusief berekende percentiel ligt daardoor dichter bij de mediaan dan het exclusief berekende percentiel, maar het verschil neemt toe met de afstand tot de mediaan. Hoe groter deze afstand, des te meer ‘trekt’ de mediaan aan het percentiel.

Nemen we als voorbeeld het percentiel van de dataset in het voorbeeld. Het rangnummer van het eerste kwartiel volgens de exclusieve methode (B1) is 3,5 en het bijbehorende eerste kwartiel is dus 4. Het rangnummer van het eerste kwartiel volgens de inclusieve methode (E) is 4 en het bijbehorende eerste kwartiel is 5. De inclusieve kwartielen liggen een half rangnummer dichter bij de mediaan dan de exclusieve kwartielen.

Waarschuwing

Zoals uit het bovenstaande blijkt berekenen softwarepakketten percentielen van niet over klassen verdeelde data met verschillende methoden. Men mag dus niet zeggen dat de percentielwaarde die een pakket produceert ‘het’ percentiel is. De gebruiker van het pakket dient zich bewust te zijn van de methode waarmee de berekening wordt uitgevoerd. Statistische software kan niet blindelings worden gebruikt.

Percentielen van continue toevalsvariabelen

Als de kansdichtheid is van een continue toevalsvariabele en de bijbehorende verdelingsfunctie, dan kunnen we voor het e percentiel berekenen via de inverse van de verdelingsfunctie: . De oppervlakte onder de kansdichtheidsfunctie wordt verdeeld in een linkerdeel met oppervlakte en een rechterdeel met oppervlakte .

Statistische software en de grafische rekenmachines bevatten rekenroutines voor het berekenen van waarden van de inverse van de verdelingsfunctie van diverse continue stochasten en dus van het e percentiel.

Voorbeeld

Het 40e percentiel van de standaardnormale verdeling is .

Percentielen van discrete toevalsvariabelen

Bij het berekenen van percentielen van discrete toevalsvariabelen gaan we op dezelfde wijze te werk als bij het berekenen van percentielen van niet-gegroepeerde data. Als de verdelingsfunctie is van de discrete toevalsvariabele , volgt uit de definitie van percentiel voor niet-gegroepeerde data:

Als en twee opeenvolgende waarden zijn van , en , dan is . Als daarentegen , kan elk getal in het interval het percentiel zijn. Men zou in dat geval het percentiel gelijk kunnen kiezen aan het midden van het interval: .

Percentielen van gegroepeerde data

Zijn de data verdeeld over klassen , is de frequentie van de -de klasse, zijn en de cumulatieve frequenties op de linker-, respectievelijk rechtergrens van de -de klasse, en is , dan kunnen we het -de percentiel berekenen door toepassing van lineaire interpolatie:

Voorbeeld

Dit is een voorbeeld dat men kan vinden op website (2). Zeven studenten beoordelen hun leraar op een schaal van 1 tot en met 5. Als de scores 3, 3, 3, 3, 4, 4, 4 zijn, dan is de mediaan van de niet-gegroepeerde data 3; als de scores 3, 3, 3, 4, 4, 4, 4 zijn, dan is de mediaan van de niet-gegroepeerde data 4. Men kan zich afvragen of het verschil tussen deze twee medianen wel realistisch is. Als we daarentegen de scores over twee klassen verdelen vinden we de medianen 3,375 en 3,675. Gezien de twee rijen scores lijken dit ‘eerlijker’ medianen.

Ook hier zien we dat onze keuze voor een specifieke methode bepalend is voor het antwoord dat we krijgen.


This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.