Robuuste regressie

Robuuste regressie(-analyse) is een statistische procedure die er op gericht is een regressie-analyse uit te kunnen voeren als de dataset vervuild is met enige punten die niet tot een (multivariate) normale verdeling behoren.

De achilleshiel van de kleinste-kwadratenmethode

Een lineaire-regressie-analyse wordt meestal uitgevoerd met de kleinste-kwadratenmethode. Een probleem daarbij is dat de oplossing gevoelig is voor fouten en afwijkingen in de data. Bij een regressie-analyse in meerdere dimensies zal een uitbijter soms door de gebruikte projectie bij grafische inspectie er heel onschuldig uitzien. Er is daarom behoefte aan een methode die de uitbijters identificeert en neutraliseert.

Robuuste methode

Een bekende schatting van een verwachtingswaarde is het steekproefgemiddelde, dat tamelijk gevoelig is voor uitbijters. Ter vermijding van dit probleem neemt men als robuuste schatting de mediaan van de steekproef. Een of meer uitbijters tellen eenvoudig niet mee in de mediaan.[1]

Voor het lineaire regressiemodel

worden schattingen en van repectievelijk en met de kleinste-kwadratenmethode bepaald als oplossingen van het minimaliseringsprobleem:

minimaal.

In plaats van het minimaliseren van de som, minimaliseren de genoemde auteurs de mediaan. De robuuste schattingen en zijn de oplossingen van het minimaliseringsprobleem:

minimaal.

Weliswaar is het niet mogelijk om voor dit probleem een analytische oplossing te formuleren, maar voor moderne computers is dat niet zo'n probleem, omdat men een dergelijk vraagstuk ook met een iteratief algoritme te lijf kan gaan.

Voor een eenvoudige rechte ziet het algoritme er als volgt uit

  • neem twee punten uit de set
  • construeer een rechte door de twee punten
  • bereken het kwadraat van de residuen
  • bepaal de mediaan van deze kwadraten
  • herhaal de procedure voor alle (of althans voor een voldoend aantal) puntencombinaties
  • de lijn met de kleinste mediaan is de robuuste oplossing

Deze lijn is niet de exacte oplossing van het vraagstuk, omdat alleen lijnen door twee punten in beschouwing genomen zijn, maar de lijn voldoet om de uitbijters te identificeren. De wortel uit de minimale mediane variatie is een goede en robuuste maat voor de stadaarddeviatie van de 'goede' punten rond de lijn als deze vermenigvuldigd wordt met de factor 1,485.

Hierna worden alle residuen door deze maat voor de spreiding gedeeld en onderworpen aan een t-toets. Op deze manier kunnen de uitbijters verwijderd worden. Vervolgens wordt op de overblijvende 'schone' set een 'gewone' regressie-analyse uitgevoerd.

In zijn geheel staat deze procedure bekend als Reweighted Least Squares (RLS).

Zie ook

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.