Correlatie

Correlatie is de statistische samenhang tussen twee grootheden. Dit kunnen twee reeksen metingen zijn, of mogelijke waarden van twee toevalsvariabelen zijn. De sterkte van deze samenhang wordt uitgedrukt in een correlatiecoëfficiënt. Als er sprake is van lineaire correlatie, wordt de sterkte van de samenhang meestal uitgedrukt in Pearsons product-momentcorrelatiecoëfficiënt. Als er geen lineaire correlatie wordt verwacht, wordt wel gebruik gemaakt van Spearmans rho of Kendalls tau. Correlatie is geen bewijs van causaliteit, al kan het daar wel een aanwijzing voor zijn.

Correlatievoorbeelden

Correlatiemaat

De mate van correlatie tussen twee variabelen wordt uitgedrukt in de correlatiecoëfficiënt. De waarde daarvan kan variëren tussen –1 en +1. Daarbij betekent 0: geen lineaire samenhang, +1: een perfecte positieve lineaire samenhang en –1: een perfecte negatieve lineaire samenhang. Hoe verder de correlatiecoëfficiënt verwijderd is van 0, hoe sterker de correlatie.

Praktische betekenis

Correlaties kunnen in de praktijk gebruikt worden om verbanden aan te wijzen en voorspellingen te doen. Voorbeelden daarvan zijn de correlatie tussen de uitslagen in twee opeenvolgende jaren van de CITO-toets in het lager onderwijs, en de correlatie tussen de prijs en de vraag in de economie. Als bekend is dat dergelijke variabelen gecorreleerd zijn, kan de ene variabele gebruikt worden om de andere te voorspellen. Zo is het voor een elektriciteitsbedrijf handig te weten hoeveel energie er op een dag gebruikt wordt, wat voorspeld kan worden als de correlatie tussen temperatuur en het energieverbruik van huishoudens bekend is.

Een bepaalde mate van statistische correlatie hoeft echter niet altijd te betekenen dat er inderdaad een oorzakelijk verband tussen de twee variabelen is. Als geen aanleiding bestaat om een correlatie te vermoeden (zoals tussen de kleur van de ogen en criminaliteit) betekent de correlatie waarschijnlijk niets. Als men correlaties toetst tussen honderden eigenschappen, zal een op de twintig onderzochte relaties statistisch significant zijn (wanneer men toetst op 5%-niveau), als de betreffende samenhang in de populatie waaruit de steekproef is getrokken, niet bestaat.

Een (significante) correlatie suggereert ook geen oorzakelijk verband. Als er een correlatie wordt gevonden tussen verhoogde agressiviteit bij kinderen en het aantal uren dat ze naar tv kijken is daarmee niet bewezen dat kinderen agressief worden van het televisiekijken. Net zo goed is het mogelijk dat kinderen die in aanleg meer neigen tot agressiviteit ook vaker televisiekijken als vrijetijdsbesteding kiezen, of dat een derde variabele (bijvoorbeeld sociaal milieu) verantwoordelijk is voor de samenhang tussen televisie kijken en agressiviteit. Er is in dit geval dus slechts sprake van een statistisch verband, en niet van een oorzakelijk verband. Een duidelijk voorbeeld is de correlatie tussen de afstand tussen de Aarde en de komeet van Halley en de benzineprijs. Deze correlatie is zeer sterk, en het is duidelijk dat er geen oorzakelijk verband is. In de statistiek mag een sterke correlatie nooit een reden zijn om te beginnen speculeren over een oorzakelijk verband.

Bekende voorbeelden van zulke "nonsenscorrelaties" zijn: de sterke, positieve correlatie tussen de grootte van de schade bij een brand en het aantal ingezette brandweerlieden, en de positieve correlatie tussen het aantal gesignaleerde ooievaars in Nederland en het geboortecijfer.

Zie ook

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.