Redigerer Q-læring (avsnitt)

== Eksempel ==

[[Fil:Q-læring eksempel med løsning.png|miniatyr|Eksempel på et miljø etter utforsking. Ved algoritmens start var inngangene til rommene merket med 0, grunnet agentens mangel på kunnskap om miljøet. Unntakene er innganger og utganger i tilstand G.]]
 
Miljøet i figuren betraktes. Miljøet består av seks rom, hvor hvert av rommene har innganger til alle motstående naborom. Hver av disse inngangene har blitt tildelt samme initielle verdi. Denne verdien er satt til 0 fordi agenten som skal orientere seg i miljøet i starten av algoritmen ikke enda har lært noe om hvilke innganger som er mest gunstig å velge i et rom for å raskest nå terminaltilstanden G. Målet er å tildele hver av disse inngangene/utgangene en verdi som gir informasjon om hvor gunstig det er å velge akkurat den inngangen i et rom, i prosessen av å nå målet G ved færrest mulige besøk av rom. I dette eksempelet benytter vi diskonteringsfaktoren <math>\gamma = 0.8</math>. 
 
Algoritmen tar i bruk verdier definert i en matrise <math>R</math>, som for hver tilstand <math>S</math><sub>y</sub> gir informasjon om den umiddelbare belønningen agenten får ved å velge handling <math>H</math> og deretter havne i tilstand <math>S</math><sub>x</sub> (i dette tilfellet ved å velge inngang til et rom). Rom som ikke er forbundet med en inngang/utgang tildeles den tomme verdien <math>-</math>. 

:<math>
R = \begin{pmatrix}    
    - & 0 & 0 & - & - & - \\
    0 & - & - & 0 & - & 100 \\
    0 & - & - & 0 & - & - \\
    - & 0 & 0 & - & 0 & - \\
    - & - & - & 0 & - & 100 \\
    - & - & - & - & - & 100 \\
  \end{pmatrix} 
</math>

Under læringsprosessen skal algoritmen oppdatere og korrigere Q-verdiene som er tildelt hver handling <math>H</math> tilgjengelig i hver tilstand <math>S</math>. Disse verdiene lagres i en matrisen <math>Q</math>, som gir informasjon om nyttigheten av å velge en bestemt handling i en bestemt tilstand.  
 
For hver tilstand, kalkulerer algoritmen Q-verdien av å velge handling <math>A</math> i tilstand <math>S</math>: 

:<math>Q(S,A) = R(S,A) + {\gamma} * {\max\left[ Q(neste S, alle A) \right]}</math>
 
Grunnet det faktum at Q-læring benytter sin egen definisjon i kalkuleringene, gjør algoritmen [[Rekursjon|rekursiv]]. Dette betyr at for å kalkulere en Q-verdi av handlingen <math>H</math> i en tilstand <math>S</math>, må først de nødvendige Q-verdier tilhørende fremtidige tilstander kalkuleres. Algoritmen starter i en tilfeldig rom <math>S</math> og kalkulerer Q-verdien av å velge alle tilgjengelige utgangene fra dette rommet etter tur. Deretter kalkuleres Q-verdien av valg av utganger fra disse rommene. Denne prosessen gjentas helt til agenten er i rommet representert av terminaltilstanden (målet) G.  
 
For illustrative formål, er det nyttig å observere en metode for kalkulering av Q-verdiene til utganger tilhørende et rom raskest mulig. Da plasseres agenten først i tilstanden <math>S = G</math> og Q-verdien til dette rommet kalkuleres. Deretter kalkuleres verdien til rommene <math>S = S2</math> og <math>S = S5</math>, så verdien tilhørende rommene som er naboene til <math>S2</math> og <math>S5</math>. Denne prosessen fortsetter helt til alle innganger har blitt tildelt en verdi som forblir uendret ved videre utforsking. Nytteverdien av å velge inngangen til rom <math>S</math><sub>y</sub> fra et rom <math>S</math><sub>x</sub> er definert i matrisen <math>Q</math>:

:<math>
Q = \begin{pmatrix}    
    0 & 80 & 51.2 & 0 & 0 & 0 \\
    64 & 0 & 0 & 64 & 0 & 100 \\
    64 & 0 & 0 & 64 & 0 & 0 \\
    0 & 80 & 51.2 & 0 & 80 & 0 \\
    0 & 0 & 0 & 64 & 0 & 100 \\
    0 & 0 & 0 & 0 & 0 & 100 \\
  \end{pmatrix} 
</math> 
 
Algoritmens læringsprosess er nå fullført, og algoritmen avslutter. Ved å benytte verdiene gitt i matrise <math>Q</math>, kan agenten nå i et rom observere Q-verdiene tilhørende hver inngang gitt i matrisen <math>Q</math>, og enkelt velge den utgangen med høyest verdi. Det er nettopp denne utgangen som bringer agenten raskest målet <math>S = G</math>. Dersom to eller flere utganger har samme Q-verdi, bringer de agenten til målet like raskt, og agenten kan da tilfeldig velge én av disse.