Elo-rating

Een Elo-rating is een getalsmatige aanduiding van de sterkte van een speler. Het wordt het meest gebruikt in schaken, dammen en go, maar kan in principe gebruikt worden bij elke sport waarbij spelers 1 tegen 1 spelen.

Het wiskundige systeem is gebaseerd op de methode van Pairwise comparison en praktisch uitgewerkt door de Amerikaanse natuurkundige en schaker Árpád Élő. In hoofdstuk 8 Rating System Theory[1] verwijst Elo naar Good 1955[2], David 1959[3], Trawinski en David 1963[4] en Buhlman en Huber 1963[5].

Elo-ratings kunnen lopen van ongeveer 1000 tot bijna 2900.

Methode

Árpád Élő constateerde op grond van statistisch onderzoek dat de verdeling van speelsterktes van schaakspelers lijkt op een normaalverdeling. Aansluitend op het bestaande ratingsysteem van de USCF koos Élő voor een klasse-indeling van C = 200 punten. De klasse-indeling wordt gelijkgesteld aan de standaardafwijking σ van de spelerperformance. De standaardafwijking van een wedstrijd tussen twee spelers wordt: σ = 200√2. Op basis van deze verdeling legde hij een relatie tussen ratingverschil en winstkans. Deze relatie ziet er in tabelvorm zo uit:

Verschil	Sterke speler	Zwakke speler	Verschil	Sterke speler	Zwakke speler
0	0.50	0.50	300	0.85	0.15
25	0.53	0.47	350	0.89	0.11
50	0.57	0.43	400	0.92	0.08
100	0.64	0.36	450	0.94	0.06
150	0.70	0.30	500	0.96	0.04
200	0.76	0.24	735	0.99	0.01
250	0.81	0.19	> 735	1.00	0.00

De tabel is opgebouwd met 10/7 als benadering van √2. De door Elo ontworpen tabel (2.11 The Percentage Expectancy Table)[1]. wordt door de FIDE nog steeds gebruikt (tabel 8.1b)[6]. Stel dat het ratingverschil tussen twee spelers gelijk is aan 300. Delen door σ geeft een Z-score van 1,05. Volgens de cumulatieve normaalverdeling geeft dit een winstkans van 0,8531, afgerond 85%.

Om na een aantal gespeelde partijen de rating aan te passen wordt aan de hand van de winstverwachting de verwachte score berekend. Deze wordt vergeleken met de daadwerkelijke score. Met dit verschil wordt in een formule de toe-of afname van de rating bepaald. Men gebruikt doorgaans de volgende formule: EloWinst = K*(W-We) ,met W de uitslag van de partij, en We de verwachte score, vastgelegd volgens tabellen en formules. In België (en nog een aantal andere landen) telt deze formule pas vanaf 20 partijen. Daarvoor wordt een ander systeem gebruikt.

Voorbeeld

Vladimir Kramnik speelde mee in het Wereldkampioenschap schaken 2007 in Mexico. Zijn FIDE-rating voor het toernooi was 2769. De gemiddelde rating van zijn tegenstanders was 2749. Zijn winstkans was 0.528. Het toernooi ging over 14 partijen, zijn verwachte score was 7.39. Kramnik scoorde 8 punten. Zijn nieuwe rating wordt dan als volgt berekend:

Nieuwe rating(2775) = Oude rating(2769) + ( score(8) - verwachte score(7.39)) * K-factor(10)

De K-factor is een door de berekenende organisatie vastgestelde coëfficiënt die meestal afhangt van de rating en het aantal gespeelde partijen.

Implementatiedetails kunnen per bond verschillen. Zo is het ook mogelijk om ratingverschillen cumulatief per partij te berekenen, hetgeen een iets nauwkeuriger rating oplevert.

K-factor in België

De K-factor is een factor die vermenigvuldigd wordt met je winst- of verlieskansen om zo je respectievelijke elowinst of -verlies te bereken. Hoe hoger de waarde, hoe vlugger je elo verandert. In België heb je de volgende waarden. (Dit hangt af van allerlei systemen)

Elo	Aantal partijen	K-factor
-	<20	andere berekening
-	20-100	32
-	101-300	24
≤ 2000	>300	16
> 2000	>300	12
> 2200	>300	10

K-factor volgens Fide

De FIDE berekent ook elo's, maar volgens een ander systeem. We noemen dit dan ook de FIDE-elo's. Dit systeem is strenger dan het Belgische model.

Geschiedenis

De Amerikaanse Schaakfederatie (United States Chess Federation) voerde in de jaren 50 een ratingsysteem in, ontworpen door Kenneth Harkness. Dit systeem voldeed niet helemaal. In 1960 ging de USCF over op het systeem van Elo, die overigens veel van dat van Harkness had overgenomen. In 1970 werd het overgenomen door de FIDE en sindsdien heeft vrijwel elke schaakbond het toegepast.

Toepassingen

Wat schaken betreft wordt de feitelijke berekening op internationaal niveau uitgevoerd door de FIDE en de ICCF en op nationaal niveau door de landelijke schaakbond, in Nederland de KNSB en in België de KBSB. Elke organisatie die een rating berekent, gebruikt een andere verzameling spelers en partijen, en een andere ratingperiode. De FIDE-rating dient wat betreft de hoogte enigermate als ijkpunt. Daardoor zijn ze onderling tot op zekere hoogte vergelijkbaar. Wel zijn er verschillen in de exacte wijze waarop nieuwe uitslagen in de diverse ratings worden verwerkt.

Ook de Vlaamse Tafeltennisliga gebruikt het elo-systeem op haar resultatenwebsite - zij het louter indicatief.

Er is ook een Elo-wereldranglijst van landenteams in het voetbal.

Toernooiprestatierating

Vaak wordt bij een toernooiuitslag voor elke deelnemer de toernooiprestatierating (TPR) vermeld, die aangeeft op welk ratingniveau deze heeft gepresteerd. De TPR wordt berekend uit de score en de gemiddelde rating van de tegenstanders.[6] [7]

Lijstprestatierating (LPR)

De KNSB berekent een prestatiemeting, de Lijst Prestatie Meting[8], op basis van individuele uitslagen.

"De LPR is die rating waarvoor zou gelden dat het totaal van de te verwachten scores (Wx op basis van de LPR) het totaal van de werkelijk behaalde scores het dichtst benadert. Hierbij wordt bij een 0% of 100% score één fictieve “remise tegen zichzelf” (Ro) toegevoegd."

Een berekende ratingverandering kan worden gelimiteerd door de LPR.

Relatieve ratings

Als er toernooiresultaten bekend zijn over een langere periode, dan kunnen relatieve ratings worden vastgesteld, ook als spelers niet tegen elkaar hebben gespeeld. Elo werkt dit uit (R5), op basis van de onderstaande kruistabel. De data bestaan uit 342 partijen gespeeld tussen 1846 en 1862.[9].

											W	P
R5	Player	A	Ha	Ho	K	L	M	P	S	W	Wins	Pct.	D(P)
552	Anderssen		10½	1½	10½	5	4	5	4		40½	.513	10
518	Harrwitz	7½		14½	1½	16	3½		0	21	64	.542	30
406	Horwitz	½	11½		1	1			11	7½	32½	.378	−90
516	Kolisch	9½	2½	3				17			32	.500	0
505	Lowenthal	3	11	5			4½		2	11	36½	.474	−18
695	Morphy	13	5½			10½		9½			38½	.726	171
502	Paulsen	4			19		2½				25½	.447	−44
508	Staunton	1	7	20		0				11	39	.591	66
425	Williams		6	9½		8			10		33½	.399	−72

514	Losses:L	38½	54	53½	32	40½	14½	31½	27	50½	342

Voor het aanpassen van de relatieve rating van een speler hanteert Elo de volgende formule:

R_{p}=R_{c}+D(P)\qquad (E1)

R_p is de eigen rating en R_c de gemiddelde rating van de tegenstanders, gewogen per gespeelde partij.

De relatieve rating wordt nu door successieve benaderingen berekend:

Wijs aan alle spelers één initiële rating R_i toe, groot genoeg om tijdens de iteratie positief te blijven.
Vind voor iedere speler de D(P) op basis van het werkelijke scoringspercentage P en de relatie tussen winstkans en ratingverschil.
Bereken vervolgens voor iedere speler de eerste correctie R₁ op basis van regel (E1), met R_c = R_i.
Bepaal vervolgens voor iedere speler het gewogen gemiddelde van de tegenstanderratings R_c1.
Bepaal de tweede benadering op basis van formule (E1), met R_c = R_c1.
Vervolg de berekening totdat de berekende ratings weinig veranderen.

Deze methode convergeert niet bijzonder snel.

Relatieve ratings gaan terug tot Thurstone (1927) [10], en Zermelo (1928) [11]. Een overzicht van de ontwikkelingen in dit gebied vindt men in[12].

Berekening relatieve ratings

De relatieve ratings kunnen beschouwd worden als het nulpunt van de meer dimensionale functie:

 $f:\mathbb {R} ^{n}\to \mathbb {R} ^{n},{\text{waarbij }}f(x)=We(x)-W$

Hierin is W de rij van werkelijke scores, We(x) de rij van de verwachte scores als functie van x, en x de rij van ratings. Het nulpunt van deze functie bestaat[11], en kan met iteratieve methodes[13] efficiënt worden bepaald.[14]

De betrouwbaarheid van ratings

Verschillen tussen werkelijke score W, en verwachte score We kunnen getest worden, onder de aanname dat de verschillen |W - We| normaal verdeeld zijn:

percentage spelers met |W - We| ≤ 0,6745 * σ is groter dan 50% (8 spelers)
percentage spelers met |W - We| ≤ 1 * σ is groter dan 68,3% (11 spelers)
percentage spelers met |W - We| ≤ 2 * σ is groter dan 95,6% (16 spelers)

Als voorbeeld kiest Elo[15] de grootmeestergroep van het Hoogovens Schaaktoernooi, editie 1975.

37e Hoogovens Schaaktoernooi, Wijk aan Zee 1975, *Grootmeestergroep*
Player	R	W	Da	P(Da)	We	W - We	PE	1.σ
Lajos Portisch	2635	10,5	101	0,64	9,74	0,76
Vlastimil Hort	2600	10,0	66	0,59	8,94	1,06
Jan Smejkal	2600	9,5	66	0,59	8,94	0,56
Lubomir Kavalek	2555	9,0	21	0,53	7,98	1,02

Svetozar Gligoric	2575	8,5	41	0,56	8,46	0,04
Robert Hübner	2615	8,5	81	0,61	9,26	−0,76
Gennadi Sosonko	2470	8,5	−64	0,41	6,06	2,44	*	*
Walter Browne	2550	8,0	16	0,52	7,82	0,18
Jefim Geller	2600	8,0	66	0,59	8,94	−0,94

Jan Timman	2510	8,0	−24	0,47	7,02	0,98
Semyon Furman	2560	7,0	26	0,54	8,14	−1,14
Kick Langeweg	2410	6,5	−124	0,33	4,78	1,72	*
Hans Ree	2470	5,5	−64	0,41	6,06	−0,56

Jan Hein Donner	2485	5,0	−49	0,43	6,38	−1,38	*
Frans Kuijpers	2445	4,0	−89	0,38	5,58	−1,58	*
Luben Popov	2460	3,5	−74	0,40	5,9	−2,4	*	*

Gemiddeld	2534		61	0,58			σ = 1,91

De kolom Da is het verschil tussen de eigen rating en de gemiddelde rating van de groep, 2534 in dit voorbeeld. Het gemiddelde verschil |Da| van alle spelers is ongeveer gelijk aan Da = 61 ratingpunten. De daarbij behorende winstkans is P(Da) = 58%. Aannemende dat de score binomiaal verdeeld is, dan is de variantie gelijk aan 15 × 58% × (100% - 58%) = 3,56. De standaard afwijking σ = 1,91 is de wortel hieruit. De waarschijnlijke fout (PE) is gelijk aan 0,6745 * 1,91 = 1,29. Elo schat de PE op 1,27 op basis van het ratingverschil tussen Portisch en Popov. Statistisch verwachten we 8 verschillen |W - We| groter dan de waarschijnlijke fout. In werkelijkheid is dit aantal maar 5. We mogen verwachten dat 15 × (100% - 68%) = 5 uitslagen buiten de standaard afwijking vallen, maar dit aantal beperkt zich tot 2. Alle uitslagen vallen binnen 2 × σ. Hieruit concludeert Elo dat de scores van het toernooi ruim binnen de statistische toleranties vallen.

De werkwijze bevat een aantal vereenvoudigingen. Er wordt geen rekening gehouden met deonderlinge afhankelijkheden in de uitslagen. De verwachte score We en de standaard afwijking σ worden bepaald op basis van gemiddelden, in plaats van individuele wedstrijden.

In de beschouwing wordt uitgegaan van een binomiale verdeling, uitsluitend winst (1) en verlies (0) komen voor. In de schaakpraktijk is remise (½) geen uitzondering. Daardoor wordt de verdeling[16] vlakker. De binomiale variantie van een partij tussen even sterke spelers is per definitie gelijk aan: μ = (0 + 1)/2, en σ² = (1 - μ)²/2 + (0 - μ)²/2 = 1/4. Inclusief remise wordt dit: μ = (0 + ½ + 1)/3, en σ² = (1 - μ)²/3 + (½ - μ)²/3 + (0 - μ)²/3 = 1/6. Dit is een factor 2/3 kleiner.

Externe links

Bronnen, noten en/of referenties

Arpad E. Elo, The Rating of Chessplayers. Past&Present. ISHI Press International, Bronx NY 10453 [1978] (2008). ISBN 978-0-923891-27-5.
I.J. Good (1955) . On the Marking of Chessplayers. The Mathematical Gazette 39 (330): 292-296 . DOI: 10.2307/3608567.
H.A. David (1959) . Tournaments and Paired Comparisons. Biometrics 46 (1-2): 139-149 . DOI: 10.1093/biomet/46.1-2.1.
B.J. Trawinski and H.A. David (1963) . Selection of the Best Treatment in a Paired-Comparison Experiment. Annals of Mathematical Statistics 34 (1): 75-91 . DOI: 10.1214/aoms/1177704243.
Hans Buhlmann and Peter J. Huber (1963) . Pairwise Comparison and Ranking in Tournaments 34 (2): 501-510 . DOI: 10.1214/aoms/1177704161.
FIDE Rating Regulations (Qualification Commission). Handbook, B. Permanent Commissions, 01. International Title Regulations (Qualification Commission), 1.48 Performance Rating (Rp). World Chess Federation (FIDE). Geraadpleegd op 2014-04-25.
Annex 9 FMJD rating system and its application rules. Annex 9 FMJD rating system. FMJD. Geraadpleegd op 2014-04-25.
Rekenregels KNSB Ratings (pdf). 9.1 Lijstprestatierating (LPR). Koninklijke Nederlandse Schaakbond. Geraadpleegd op 2014-04-25.
Arpad E. Elo, The Rating of Chessplayers. Past&Present. ISHI Press International, Bronx NY 10453 [1978] (2008), “3.42 The method of Successive Approximations”. ISBN 978-0-923891-27-5.
Louis L. Thurstone, A law of comparative judgement, Psychological Review 34 (1927) 273-286
E. Zermelo, Die Berechnung der Turnier-Ergebnisse als ein Maximumproblem der Wahrscheinlichkeitsrechnung, Mathematische Zeitschrift 29 (1929) 436–460
Glickman, Mark E, Introductory note to 1928. http://www.glicko.net/. Geraadpleegd op 17-2-2015.
Iteratie van Newton-Raphson in meer dimensies
Jaan Kiusalaas, Numerical Methods in Engineering. With Python (2nd ed.), Cambridge University Press, New York, 2010, Hoofdstuk 2.7 Iterative Methods en 4.6 Systems of Equations, ISBN 978-0-521-19132-6.
Arpad E. Elo, The Rating of Chessplayers. Past&Present. ISHI Press International, Bronx NY 10453 [1978] (2008), “2.5 The Reliability of the Ratings”. ISBN 978-0-923891-27-5.
K. Balasubramanian, R. Viperos & N. Balakrishnan, Some discrete distributions related to extended Pascal Triangles, Fibonacci Quart. 33(5) (1995) 415–425. (p. 419)

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[AEE1978-1] Arpad E. Elo, The Rating of Chessplayers. Past&Present. ISHI Press International, Bronx NY 10453 [1978] (2008). ISBN 978-0-923891-27-5.

[2] I.J. Good (1955) . On the Marking of Chessplayers. The Mathematical Gazette 39 (330): 292-296 . DOI: 10.2307/3608567.

[3] H.A. David (1959) . Tournaments and Paired Comparisons. Biometrics 46 (1-2): 139-149 . DOI: 10.1093/biomet/46.1-2.1.

[4] B.J. Trawinski and H.A. David (1963) . Selection of the Best Treatment in a Paired-Comparison Experiment. Annals of Mathematical Statistics 34 (1): 75-91 . DOI: 10.1214/aoms/1177704243.

[5] Hans Buhlmann and Peter J. Huber (1963) . Pairwise Comparison and Ranking in Tournaments 34 (2): 501-510 . DOI: 10.1214/aoms/1177704161.

[fidehandbook-6] FIDE Rating Regulations (Qualification Commission). Handbook, B. Permanent Commissions, 01. International Title Regulations (Qualification Commission), 1.48 Performance Rating (Rp). World Chess Federation (FIDE). Geraadpleegd op 2014-04-25.

[7] Annex 9 FMJD rating system and its application rules. Annex 9 FMJD rating system. FMJD. Geraadpleegd op 2014-04-25.

[8] Rekenregels KNSB Ratings (pdf). 9.1 Lijstprestatierating (LPR). Koninklijke Nederlandse Schaakbond. Geraadpleegd op 2014-04-25.

[9] Arpad E. Elo, The Rating of Chessplayers. Past&Present. ISHI Press International, Bronx NY 10453 [1978] (2008), “3.42 The method of Successive Approximations”. ISBN 978-0-923891-27-5.

[Thurstone-10] Louis L. Thurstone, A law of comparative judgement, Psychological Review 34 (1927) 273-286

[Zermelo-11] E. Zermelo, Die Berechnung der Turnier-Ergebnisse als ein Maximumproblem der Wahrscheinlichkeitsrechnung, Mathematische Zeitschrift 29 (1929) 436–460

[12] Glickman, Mark E, Introductory note to 1928. http://www.glicko.net/. Geraadpleegd op 17-2-2015.

[13] Iteratie van Newton-Raphson in meer dimensies

[14] Jaan Kiusalaas, Numerical Methods in Engineering. With Python (2nd ed.), Cambridge University Press, New York, 2010, Hoofdstuk 2.7 Iterative Methods en 4.6 Systems of Equations, ISBN 978-0-521-19132-6.

[15] Arpad E. Elo, The Rating of Chessplayers. Past&Present. ISHI Press International, Bronx NY 10453 [1978] (2008), “2.5 The Reliability of the Ratings”. ISBN 978-0-923891-27-5.

[16] K. Balasubramanian, R. Viperos & N. Balakrishnan, Some discrete distributions related to extended Pascal Triangles, Fibonacci Quart. 33(5) (1995) 415–425. (p. 419)