Redigerer
Elo-rating
(avsnitt)
Hopp til navigering
Hopp til søk
Advarsel:
Du er ikke innlogget. IP-adressen din vil bli vist offentlig om du redigerer. Hvis du
logger inn
eller
oppretter en konto
vil redigeringene dine tilskrives brukernavnet ditt, og du vil få flere andre fordeler.
Antispamsjekk.
Ikke
fyll inn dette feltet!
==Teori== ===Matematiske detaljer=== Prestasjoner kan ikke bli målt absolutt, den kan kun bli anslått fra seire og tap. Rating har derfor kun mening relativt til andre ratinger. Derfor kan både gjennomsnitt og spredningen av ratingen bli vilkårlig valgt. Elo foreslo å skalere ratingen slik at en forskjell på 200 ratingpoeng ville bety at den sterkere spilleren ville ha en forventet score på omtrent 0,75. En spillers forventede score er dens [[sannsynlighet]] for å vinne pluss halve sannsynligheten for å spille [[remis]]. Med andre ord, en forventet score på 0,75 kunne representere 75 % sannsynlighet for å vinne, 0 % for å spille remis, og 25 % for å tape. På en annen ytterkant kan det representere 50 % sannsynlighet for å vinne, 50 % for å spille remis, og 0% for å tape. Sannsynligheten for å spille remis, i motsetning til å få et avgjort resultat, er ikke spesifisert i elo-systemet. I stedet teller remis som en halv seier og et halvt tap. Dersom spiller A har en virkelig styrke på <math>R_A</math> og spiller B har en virkelig styrke på <math>R_B</math>, blir den eksakte formelen for spiller As forventede score :<math>E_A = \frac 1 {1 + 10^{(R_B - R_A)/400}}.</math> På samme måte for spiller Bs :<math>E_B = \frac 1 {1 + 10^{(R_A - R_B)/400}}.</math> Merk at <math>E_A + E_B = 1</math>. I praksis, siden den virkelige styrken til hver spiller er ukjent, blir den forventede scoren beregnet ved å bruke spillerens aktuelle rating. Når en spillers score i en turnering overgår den forventede, tolker elo-systemet dette som en indikasjon for at spillerens rating er for lav, og må justeres oppover. På samme måte, dersom en spillers turneringsscore ligger under den forventede score må denne spillerens rating justeres nedover. Elos opprinnelige forslag, hvilket fortsatt er i utstrakt bruk, var en enklere lineær justering, proporsjonal med hvor mye spilleren spilte bedre eller dårligere enn forventet. Den maksimale justeringen per parti (ofte kalt K-verdien) ble satt til ''K''=16 for mestere og ''K''=32 for svakere spillere. Anta at spiller As forventede score er <math>E_A</math> poeng, men at spilleren kun fikk <math>S_A</math> poeng. Formelen for å oppdatere spillerens rating er :<math>R_A^\prime = R_A + K(S_A - E_A).</math> Denne oppdatering kan bli gjort etter hvert spill eller etter hver turnering, eller etter en annen passende ratingperiode. Et eksempel for å klargjøre dette. Anta at spiller A har 1613 i rating og spiller i en turnering med fem runder. Han taper mot en spiller ratet 1609, spiller remis mot en spiller ratet 1477, slår en spiller ratet 1388, slår en spiller ratet 1586, og taper mot en spiller ratet 1720. Spillerens faktiske score ble 0 + 0,5 + 1 + 1 + 0 = 2,5. Spillerens forventede score, beregnet etter formelen gitt over, var 0,506 + 0,686 + 0,785 + 0,539 + 0,351 = 2,867. Derfor blir hans nye rating 1613 + 32·(2,5 - 2,867) = 1601. Merk at selv om to seire, to tap og en remis virker som en [[par (golf)|par]] score, var dette verre enn forventet for spiller A fordi motstanderne var gjennomsnittlig lavere ratet. Derfor blir spilleren litt straffet. Dersom spilleren hadde spilt to seire, ett tap, og to remis, altså en total score på 3 poeng og litt over par, ville dette resultert i en lett belønning, og spillerens nye rating ville blitt 1613 + 32·(3 − 2.867) = 1617. Denne oppdateringsprosedyren er kjernen i ratingene brukt av de forskjellige sjakkorganisasjoner eller forbund. Imidlertid har hver organisasjon forskjellige måter å håndtere ratingens iboende usikkerhet, spesielt ratingen for nykommere, og håndteringen av [[inflasjon]]/[[deflasjon]]. Nye spillere blir tildelt foreløpige ratinger som blir justert mer drastisk enn etablerte ratinger. Forskjellige metoder (ingen fullstendig suksessfulle) har blitt introdusert for å injisere poeng inn i ratingsystemet slik at ratingen fra forskjellige [[æra]]er er omtrent sammenlignbare. Prinsippet brukt i disse ratingsystemene kan brukes for rating i andre konkurranse, for eksempel internasjonale [[fotball]]kamper. Elo-rating har blitt brukt i spill uten sannsynligheten for uavgjort, og i spill hvor resultatet kan ha en [[kvantitet]] (stor/liten margin) i tillegg til kvalitet (seier/tap). <!-- See [[Go ranks and ratings#Elo Ratings as used in Go|go rating with Elo]] for more. '''See also''': [[Hubbert curve]] for the similarity between the derivative of the [[logistic curve]] and the [[normal distribution]]. --> ===Matematiske problemer=== Det er hovedsakelig tre matematiske bekymringer relatert til professor Elos opprinnelige arbeid, nemlig den korrekte kurven, den korrekte K-faktoren, og perioden med provisoriske, grove beregninger for nye spillere. ====Den mest nøyaktige fordelingsmodellen==== Den første matematiske bekymringen tatt opp av FIDE var bruken av normalfordelingen. Det ble oppdaget at denne ikke representerte de virkelige resultatene som ble oppnådd av spillerne, spesielt de lavere ratede. I stedet byttet de til en logistisk fordelingsmodell, hvilket tilsynelatende passet bedre til de faktiske resultatene. ====Den mest nøyaktige K-faktoren==== Den andre store bekymringen er bruken den korrekte K-faktoren. Sjakkstatistikeren [[Jeff Sonas]] anser at den opprinnelige verdien K = 10 (for spillere ratet over 2400) er unøyaktig i Elos verk. Dersom K-faktoren er satt for høyt vil det bli for stor sensitivitet i systemet med tanke på den store utvekslingen av poeng. En for lav K-verdi vil medføre at sensitiviteten blir minimal og vil føre til at det blir for vanskelige å oppnå nok poeng til å vinne ratingpoeng. Elos opprinnelige estimat av K-faktoren var basert uten fordelen av enorme databaser og statistiske bevis. Sonas indikerte at en K-faktor på 24 (for spillere over 2400) ville være mer nøyaktig både som et verktøy til å anslå fremtidig prestasjon, og også mer sensitiv til nåværende prestasjon og form.<ref>En nøkkelartikkel av Sonas er [http://www.chessbase.com/newsdetail.asp?newsid=562 Jeff Sonas: «The Sonas Rating Formula — Better than Elo?»]</ref> Enkelte sjakksider på internett unngår en tredelt K-faktor basert på rating. For eksempel virker det som ICC bruker en global K = 32 med unntak av spill mot spillere med provisorisk rating. USCF (som bruker en logistisk fordeling i stedet for en normalfordelig) har delt K-faktoren i tre ratingområder. * K = 32 for spillere under 2100 * K = 24 for spillere mellom 2100 og 2400 * K = 16 for spillere over 2400 FIDE bruker følgende oppdeling * K = 40 for ny spillere i listen frem til spilleren har fullført minst 30 ratede partier. * K = 20 sålenge spillerens rating er under 2400. * K = 10 etter at en spiller har oppnådd en rating på 2400 og fullført minst 30 ratede partier. Deretter er K-faktoren permanent 10. * K = 40 for juniorer inntil slutten av det året de fyller 18, og så lenge rating er under 2300. I «over brettet»-sjakk er oppdelingen av K-faktoren viktig for å forsikre en minimal inflasjon i toppsjiktet av ratingskalaen. Dette burde i teorien gjelde like mye på en online sjakkserver. I teorien vil denne oppdelingen av K-faktoren gjøre det vanskeligere for spillere å oppnå de virkelig ratinghøydene dersom K-faktoren blir redusert fra 32 til 16 når de når en rating på 2400. Til tross for dette indikerer ICCs hjelp om sin K-faktor<ref>[http://www.chessclub.com/help/k-factor ICC hjelp: K-faktor]</ref> at det kan være spillernes mulighet til å velge motstandere som muliggjør 2800+ spillere å fortsette å klatre med relativ letthet. Dette kan virke sannsynlig. Dersom man analyserer motstanderhistorikken til en stormester på ICC vil man finne mange motstandere som alle er 3100+ . I «over brettet»-sjakk vil dette kun forekomme i kategori 18+ -turneringer, der stormesteren vil finne en stødig strøm av motstandere på 2700+ . Dersom spilleren deltok i en vanlig Monradturnering i kategori 10 vil spilleren mest sannsynlig spille mot mange motstandere under 2500. Ett enkelt tap eller en remis kan føre til store ratingtap. Selv om K-faktoren er 16 og spilleren har slått en 3100+ -spiller flere ganger på rad vil ratingen stige signifikant over en kort periode grunnet hastigheten i lynpartier, hvilket gir spilleren muligheten til å spille svært mange partier på svært kort tid. Det kan diskuteres for at K-faktoren kun kan senke farten på ratingstigningen per parti. Beviset gitt i ICCs artikkel på K-faktoren omhandler autoparingssystemet, der maksimalratingen oppnådd ser ut til å stagnere på 1500. Det kan derfor synes at tilfeldig paring, i motsetning til selektiv paring, er nøkkelen i kampen mot inflasjon i toppskiktet av ratingspekteret, og i mye mindre grad, en lavere K-faktor for spillere over 2400. ===Praktiske problemer=== ====Aktivitet versus beskyttelse av egen rating==== Generelt har elo-systemet økt konkurransemiljøet i sjakk, og inspirert spillere til å studere spillet dypere for å forbedre eget spill. I enkelte tilfeller kan sjakkrating allikevel virke som en demper på sjakkaktiviteten til spillere som ønsker å «beskytte» ratingen sin. Eksempel: # Spillerne kan velge turneringer og motstandere mer forsiktig der det er mulig. # Dersom en spiller deltar i en Monrad-turnering og taper et par partier på rad, kan de føle at de trenger å trekke seg for å minimere «skaden» på ratingen. # Juniorspillere, som bør spille så mye som mulig for treningens skyld, men som har fått en høy provisorisk rating, kan ende opp med å spille mindre av ratinghensyn. I disse eksemplene kan «ratingagendaen» komme i konflikt med fremmingen av sjakkaktivitet og ratede partier.<ref>[http://www.chesscafe.com/text/skittles176.pdf Foreldres guide til sjakk] «Skittles», Don Heisman, Chesscafe.com, 4. august 2002</ref> Denne kampen mellom spilleaktivitet og ratinghensyn kan også sees på mange online servere som har implementert elo-systemet. For eksempel vil høyt ratede spillere være mye mer selektive i valg av motstander og vil sitte å vente på en «overratet» motstander som de tror de kan slå. Høyt ratede spillere vil også være svært forsiktige med å spille mot svært mye lavere ratet motstand av ratinghensyn. Dersom man skulle tape vil dette straffe ratingen betydelig. Dette er eksempler på hvordan elo-rating kan motvirke høy aktivitet. Angående bevaring av høye elo-ratinger versus oppfordring til høy spillaktivitet har den britiske [[Stormester i sjakk|stormesteren]] [[John Nunn (sjakkspiller)|John Nunn]] kommet med et interessant forslag til en verdensmesterskapsmodell basert på kvalifisering ved elo-rating.<ref>[http://www.chessbase.com/newsdetail.asp?newsid=2440 ChessBase.com - Nunns plan for verdensmesterskapet i sjakk]</ref> Nunn påpeker i avsnittet «Utvelgelse av spillere» at deltagerne ikke bare skal vurderes fra elo-rating, men også fra spillaktivitet (antall spilte partier). Nunn skiller klart «aktivitetsbonusen» fra elo-ratingen og mener at den kun skal brukes for å skille to like spillere. Når elo-systemet brukes på «avslappede» online sjakkservere er det minst to store praktiske problemer som må takles. Dette er misbruk av sjakkmotorer og selektiv paring. ====Sjakkmotorer==== Det første og største problemet er spillere som tar i bruk sjakkmotorer for å øke ratingen sin. Dette er spesielt et problem i korrespondansesjakk-servere og -organisasjoner, der bruken av et bredt spekter av motorer i samme parti er fullt mulig. Dette gjør det nytteløst å prøve å bevise at noen har jukset. Lyn-servere slik som FICS eller ICC forsøker å minimere bruken av motorer ved å klart si ifra om forbudet mot bruken av sjakkmotorer når man logger på deres servere. ====Selektiv paring==== Et mer subtilt problem er relatert til paring. Når spillere kan velge sine egne motstandere, kan de velge motstandere med minimal risiko for å tape og maksimal gevinst for vinne. En slik luksus ved å kunne håndplukke sine motstandere er ikke tilstede «over brettet» i elo-kalkulasjoner kan være en del av forklaringen på at elo-ratinger på ICC er høyt over 2800. Spesielle eksempler på spillere ratet 2800+ som velger motstandere med minimal risiko og maksimal ratinggevinst inkluderer: Valg av sjakkmotorer spilleren vet den kan slå med en viss strategi, valg av motstandere spilleren tror er overratet, eller å unngå å spille sterke underratede motstandere som kan holde sjakktitler som [[Internasjonal mester i sjakk|IM]] eller [[Stormester i sjakk|GM]]. I kategorien av overratede motstandere finnes nye spillere med færre enn 50 partier som har fått en svært høy provisorisk rating. ICC kompenserer for dette ved å gi en lavere K-faktor til etablerte spillere dersom de vinner mot nye spillere. Denne K-faktoren er en funksjon av antall ratede partier spilt av den nye spilleren. På grunn av dette må elo-rating på online sjakkservere tas med en klype salt. Faktisk kan også denne muligheten til å velge sine motstandere ha stor underholdningsverdi for tilskuere. For eksempel kan man observere en svært sterk GM ratet 3100+ utfordre en annen sterk GM ratet 3100+. Slike motstandere, som de høyest ratede spillerne på online sjakkservere velger å spille mot for å opprettholde sin rating, vil ofte være mye sterkere motstandere enn dersom de spilte i en åpen turnering med «Sveitsisk»-paring. I tillegg forsikrer det at spillhistorikken til dem med svært høy rating inneholder motstandere med rating på eget nivå. På dette grunnlag tilbyr elo-ratinger fortsatt en nyttig mekanisme for å tildele rating basert på motstanderens rating. Imidlertid må dens samlede troverdighet sees i kontekst av de to største problemene beskrevet over; misbruk av sjakkmotorer og selektiv paring. ICC har nylig introdusert en egen rating for «auto-paring» som er basert på tilfeldig paring av motstandere, men der hver seier på rad forsikrer en statistisk hardere motstander som også har vunnet x parti på rad. Med potensielt hundrevis av spillere involvert tilbyr dette utfordringer i en stor «Sveitser»-turnering der rundevinnerne møter andre rundevinnere. Denne paringsmåten maksimerer ratingrisikoen for høyt ratede deltagere som kan møte sterk motstand i lavt ratede spillere. Dette er en separert rating fra den vanlige på ICC, og faller i samme kategori som «1-minuttere» og «5-minuttere». I disse tilfellene er det ekstremt sjeldent at spillere når en maks rating på over 2500. ===Inflasjon og deflasjon=== Det primære målet til elo-ratinger er å presist anslå resultatet i parti mellom samtidige spillere, og FIDE-ratinger utfører denne oppgaven relativt godt. Et sekundært, og mer ambisiøst, mål er å sammenligne spillere fra forskjellige æraer. Det ville vært praktisk at en FIDE-rating på 2500 betydde det samme i 2008 som i 1978. Dersom ratingsystemet er blitt utsatt for inflasjon, vil en moderne rating på 2500 være verdt mindre enn en historisk rating på 2500. Det motsatte vil gjelde dersom ratingsystemet er blitt utsatt for deflasjon. Blant dem som mener rating fra forskjellige æraer skal bety det samme er det uenighet om hvorvidt en gitt rating skal representere et gitt absolutt ferdighetsnivå eller et gitt relativt ferdighetsnivå. Tilhengerne av absolutt ferdighet, deriblant FIDE<ref>[http://www.fide.com/official/handbook.asp?level=B0212 FIDE håndbok: Regler i sjakk]</ref>, foretrekker at moderne ratingtall gjennomsnittlig ligger høyere enn historiske ratingtall, dersom moderne stormestere faktisk spiller bedre sjakk. Med dette tankesettet vil et perfekt ratingsystem tilsi at en moderne spiller med 2500 og en historisk spiller med 2500 ha like store sjanser til å vinne, dersom det var mulig å gjennomføre en slik kamp. Sterke sjakkmotorers inntog i sjakkverden har tillatt en noe objektiv vurdering av det absolutte ferdighetsnivået til en historisk spiller ved å se på arkiverte partier. Tilhengerne av relativ ferdighet vil foretrekke at [[median]]ratingen, eller en annen sammenligningsrating, fra alle æraer forblir den samme. Med dette tankesettet vil et perfekt ratingsystem tilsi at en moderne spiller blant de 20% beste i verden ha samme rating som en historisk spiller blant de 20% beste. Ratingen bør indikere omtrent hvor en spiller står i sjakkhierarkiet i sin egen æra. Den gjennomsnittlige FIDE-ratingen til toppspillere har stødig klatret de siste tyve årene. Dette er et eksempel på inflasjon, hvilket er uønsket fra perspektivet til en tilhenger av et relativt ferdighetsnivå. Imidlertid er det plausibelt at FIDE-rating ikke har blitt utsatt for inflasjon fra perspektivet til en tilhenger av et absolutt ferdighetsnivå. Moderne spillere kan tenkes å være bedre enn sine forgjengere grunnet mye større kunnskap om åpningsteori og computer-assistert taktisk trening. Både tilhengere av absolutt og relativt ferdighetsnivå er enige om at ratingnedgang er uønsket, eller at alt for rask oppgang enn det som kan tilskrives en generell økning i ferdighetsnivå. Begge gruppene ville beskrevet det første som [[deflasjon]] og det siste som [[inflasjon]]. Ikke bare gjør rask inflasjon og deflasjon det umulig å sammenligne forskjellige æraer, men kan også introdusere unøyaktigheter mellom aktive og mindre aktive samtidige spillere. Den mest logiske løsningen for å forhindre inflasjon/deflasjon er å la hvert parti ende i en jevn transaksjon av ratingpoeng. Dersom vinneren får N ratingpoeng, mister taperen N ratingpoeng. Meningen med dette er å holde gjennomsnittsratingen konstant ved å forhindre poeng i å komme inn i eller forlate systemet. Dessverre fører denne typen løsning ofte til ratingdeflasjon. USCF ble tidlig rammet av dette før de byttet til elo-systemet. NSF er også kjent med problemet, spillere forlater som regel systemet med flere poeng enn det de kom inn med. Dermed synker det gjennomsnittlige ratingtallet over tid. Blant tiltakene til NSF som motvirker dette er en høyere k-faktor for juniorspillere, samt at fremgangen deres kan dobles dersom de presterer vesentlig bedre enn ventet.<ref>[http://www.sjakk.no/nsf/elosystem_index.html Elo-SYSTEMET] {{Wayback|url=http://www.sjakk.no/nsf/elosystem_index.html |date=20131205025157 }}</ref> ====Praktiske hensyn==== På grunn av den signifikante endringen i timingen av når inflasjon og deflasjon oppstår, og for å nedkjempe deflasjon, har de fleste implementasjonene av elo-rating en mekanisme for innsprøyting av poeng til systemet for å opprettholde relativ rating over tid. FIDE har to inflasjonsmekanismer. Den første, prestasjoner under et visst nivå blir ikke tatt hensyn til slik at en spiller med et virkelig ferdighetsnivå under dette nivået er enten ikke ratet eller er overratet, aldri korrekt ratet. Den andre, etablerte og høyt ratede spillere har en lavere K-faktor.<ref name="autogenerated2">[http://www.fide.com/official/handbook.asp?level=B0210 FIDE håndbok: Regler i sjakk]</ref> Det finnes ingen teoretisk grunn til at disse mekanismene tilbyr en passende balanse til et ellers deflasjonspreget opplegg. Overkorreksjon kan resultere i en netto inflasjon forbi sjakkmiljøets økning i absolutt ferdighet. På den andre siden finnes det ingen åpenbart bedre alternativer. Spesielt online sjakkservere har lidd minst like mange inflasjons- og deflasjonsproblemer som FIDE, til tross for alternative stabiliseringsmekanismer.
Redigeringsforklaring:
Merk at alle bidrag til Wikisida.no anses som frigitt under Creative Commons Navngivelse-DelPåSammeVilkår (se
Wikisida.no:Opphavsrett
for detaljer). Om du ikke vil at ditt materiale skal kunne redigeres og distribueres fritt må du ikke lagre det her.
Du lover oss også at du har skrevet teksten selv, eller kopiert den fra en kilde i offentlig eie eller en annen fri ressurs.
Ikke lagre opphavsrettsbeskyttet materiale uten tillatelse!
Avbryt
Redigeringshjelp
(åpnes i et nytt vindu)
Navigasjonsmeny
Personlige verktøy
Ikke logget inn
Brukerdiskusjon
Bidrag
Opprett konto
Logg inn
Navnerom
Side
Diskusjon
norsk bokmål
Visninger
Les
Rediger
Rediger kilde
Vis historikk
Mer
Navigasjon
Forside
Siste endringer
Tilfeldig side
Hjelp til MediaWiki
Verktøy
Lenker hit
Relaterte endringer
Spesialsider
Sideinformasjon