Uitbijter

Onder uitbijter of uitschieter (outlier) verstaat men in de statistiek en data-analyse een waarneming die niet bij de overige lijkt te passen. Meestal betreft het een van de data die relatief ver van de overige data verwijderd ligt. Statistieken afgeleid uit data met uitbijters kunnen een sterk vertekend beeld geven van de werkelijkheid. Ze kunnen echter ook een aanwijzing zijn dat niet de juiste kansverdeling wordt toegepast. In dat geval is er feitelijk geen sprake van uitschieter. Bijvoorbeeld: bij berekening van het rekenkundig gemiddelde heeft een uitbijter grote invloed op de verkregen waarde, maar een uitbijter heeft geen of nauwelijks invloed bij de berekening van een mediaan.

Stel bijvoorbeeld dat de temperatuur van een kamer gevolgd wordt die rond 20 °C zal liggen, en dat er 9 metingen zijn in de buurt van de doeltemperatuur en één "meting" van 200 °C. Dan is duidelijk dat deze laatste meting een uitbijter is, dus niet juist, die het totale beeld verstoort. Vanuit statistisch oogpunt kan men stellen dat een uitbijter een waarde is die niet tot de betrokken populatie behoort.

Detectie van uitbijters is, naast het opsporen van redundantie en de eliminatie van ruis, een van de belangrijkste taken na het opmeten en verzamelen van data. Voor het detecteren van uitbijters moet onderscheid gemaakt worden tussen univariate (slechts één meetresultaat per meting voor een staal) en multivariate gegevens (vele, soms wel honderden, meetresultaten per meting voor een staal).

Voorkomen en oorzaken van uitbijters

Boxplot van data van het Michelson-Morley-experiment.

In een normale verdeling liggen 95% van de meetwaarden op maximaal twee standaardafwijkingen van het gemiddelde, terwijl 99,7% van de meetwaarden op maximaal 3 standaarddeviaties van het midden liggen. Wanneer in een normaal verdeelde populatie een hoger percentage van de meetwaarden buiten deze intervallen ligt, zijn er waarschijnlijk uitbijters aanwezig in de dataset. Een andere mogelijkheid is dat er geen sprake is van een normale verdeling, maar een kansverdeling met een lange of zware staart.

Voor het weergeven van de spreiding van meetwaarden en uitbijters wordt vaak gebruikgemaakt van een boxplot. Uitbijters hebben tal van mogelijke oorzaken. Wanneer een meettoestel niet correct functioneert, kan het bijvoorbeeld een nulwaarde, de maximale meetwaarde of een willekeurig meetresultaat geven. Tevens kunnen er fouten optreden bij de transmissie van het meetsignaal van de sensor of het meettoestel naar het toestel, bijvoorbeeld een computer, dat de meetgegevens registreert. Bovendien kan een staal (monster) degraderen of kan er contaminatie optreden voorafgaand aan de analyse. Een triviale, maar in de praktijk weleens voorkomende fout, is het foutief overschrijven van gegevens, waardoor bijvoorbeeld de komma een grootteorde opschuift.

Detectie van uitbijters

Er bestaat geen eenduidige definitie van wat een uitbijter is. Het bepalen of een meetwaarde een uitbijter is, is bijgevolg subjectief.

Diverse criteria worden gebruikt voor het objectiveren van de beslissing of een bepaalde meetwaarde een uitbijter is. Meestal gaat men uit van de veronderstelling dat de meetpunten van een dataset uit een normaal verdeelde populatie komen. Een vaak gebruikt criterium stelt dat een meetwaarde die meer dan drie standaarddeviaties van het gemiddelde ligt, een uitbijter is. Andere criteria die afgeleid worden van het gemiddelde en de standaardafwijking zijn:

Daarnaast bestaan er ook criteria die gebruikmaken van de interkwartielafstand. Wanneer bijvoorbeeld en het eerste en derde kwartiel zijn, kan men een meetwaarde als uitbijter beschouwen als deze ligt buiten het interval

,

waarbij een vooraf bepaalde constante is.

Univariate gegevens

In het meest voorkomende geval is er per meting van een staal slechts één meetresultaat verkregen. Vaak volgen de meetwaarden een normale verdeling. Indien dit niet het geval is, kan soms door een geschikte transformatie toch tot een normale verdeling besloten worden.

Detectie van uitbijters bij univariate gegevens die als normaal verdeeld beschouwd kunnen worden, kan op de volgende wijze gedaan worden:

  1. bepaal het gemiddelde van alle meetwaarden
  2. zoek de meetwaarde die het verst (het minimum of het maximum van de meetwaarden) ligt van dit gemiddelde
  3. bepaal het gemiddelde en de standaardafwijking van de overige meetwaarden
  4. beschouw als uitbijter, als
  5. verwijder uit de oorspronkelijke set gegevens en herhaal de procedure met de resterende gegevens

Multivariate gegevens

Bij multivariate gegevens zullen de verschillende meetwaarden per meting tezamen veranderen. Daarom kan de procedure van univariate gegevens niet gevolgd worden en zijn enkel speciale multivariate methoden bruikbaar die de gezamenlijke verandering van verschillende meetwaarden kunnen uitbuiten.

Voor detectie van uitbijters bij multivariate gegevens kan men gebruikmaken van Hotellings waarden of Cooks afstanden.

In de biologie, met name de ecologie en taxonomie, wordt voor het opsporen van uitbijters en van redundantie vaak gebruikgemaakt van classificatie (waarbij het onderlinge verband tussen objecten wordt ontward door deze te groeperen) en ordinatie of multidimensionale schaling (waarbij objecten en variabelen als punten of vectoren in een vectorruimte worden voorgesteld).

Zie ook

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.