Redigerer
Q-læring
(avsnitt)
Hopp til navigering
Hopp til søk
Advarsel:
Du er ikke innlogget. IP-adressen din vil bli vist offentlig om du redigerer. Hvis du
logger inn
eller
oppretter en konto
vil redigeringene dine tilskrives brukernavnet ditt, og du vil få flere andre fordeler.
Antispamsjekk.
Ikke
fyll inn dette feltet!
== Eksempel == [[Fil:Q-læring eksempel med løsning.png|miniatyr|Eksempel på et miljø etter utforsking. Ved algoritmens start var inngangene til rommene merket med 0, grunnet agentens mangel på kunnskap om miljøet. Unntakene er innganger og utganger i tilstand G.]] Miljøet i figuren betraktes. Miljøet består av seks rom, hvor hvert av rommene har innganger til alle motstående naborom. Hver av disse inngangene har blitt tildelt samme initielle verdi. Denne verdien er satt til 0 fordi agenten som skal orientere seg i miljøet i starten av algoritmen ikke enda har lært noe om hvilke innganger som er mest gunstig å velge i et rom for å raskest nå terminaltilstanden G. Målet er å tildele hver av disse inngangene/utgangene en verdi som gir informasjon om hvor gunstig det er å velge akkurat den inngangen i et rom, i prosessen av å nå målet G ved færrest mulige besøk av rom. I dette eksempelet benytter vi diskonteringsfaktoren <math>\gamma = 0.8</math>. Algoritmen tar i bruk verdier definert i en matrise <math>R</math>, som for hver tilstand <math>S</math><sub>y</sub> gir informasjon om den umiddelbare belønningen agenten får ved å velge handling <math>H</math> og deretter havne i tilstand <math>S</math><sub>x</sub> (i dette tilfellet ved å velge inngang til et rom). Rom som ikke er forbundet med en inngang/utgang tildeles den tomme verdien <math>-</math>. :<math> R = \begin{pmatrix} - & 0 & 0 & - & - & - \\ 0 & - & - & 0 & - & 100 \\ 0 & - & - & 0 & - & - \\ - & 0 & 0 & - & 0 & - \\ - & - & - & 0 & - & 100 \\ - & - & - & - & - & 100 \\ \end{pmatrix} </math> Under læringsprosessen skal algoritmen oppdatere og korrigere Q-verdiene som er tildelt hver handling <math>H</math> tilgjengelig i hver tilstand <math>S</math>. Disse verdiene lagres i en matrisen <math>Q</math>, som gir informasjon om nyttigheten av å velge en bestemt handling i en bestemt tilstand. For hver tilstand, kalkulerer algoritmen Q-verdien av å velge handling <math>A</math> i tilstand <math>S</math>: :<math>Q(S,A) = R(S,A) + {\gamma} * {\max\left[ Q(neste S, alle A) \right]}</math> Grunnet det faktum at Q-læring benytter sin egen definisjon i kalkuleringene, gjør algoritmen [[Rekursjon|rekursiv]]. Dette betyr at for å kalkulere en Q-verdi av handlingen <math>H</math> i en tilstand <math>S</math>, må først de nødvendige Q-verdier tilhørende fremtidige tilstander kalkuleres. Algoritmen starter i en tilfeldig rom <math>S</math> og kalkulerer Q-verdien av å velge alle tilgjengelige utgangene fra dette rommet etter tur. Deretter kalkuleres Q-verdien av valg av utganger fra disse rommene. Denne prosessen gjentas helt til agenten er i rommet representert av terminaltilstanden (målet) G. For illustrative formål, er det nyttig å observere en metode for kalkulering av Q-verdiene til utganger tilhørende et rom raskest mulig. Da plasseres agenten først i tilstanden <math>S = G</math> og Q-verdien til dette rommet kalkuleres. Deretter kalkuleres verdien til rommene <math>S = S2</math> og <math>S = S5</math>, så verdien tilhørende rommene som er naboene til <math>S2</math> og <math>S5</math>. Denne prosessen fortsetter helt til alle innganger har blitt tildelt en verdi som forblir uendret ved videre utforsking. Nytteverdien av å velge inngangen til rom <math>S</math><sub>y</sub> fra et rom <math>S</math><sub>x</sub> er definert i matrisen <math>Q</math>: :<math> Q = \begin{pmatrix} 0 & 80 & 51.2 & 0 & 0 & 0 \\ 64 & 0 & 0 & 64 & 0 & 100 \\ 64 & 0 & 0 & 64 & 0 & 0 \\ 0 & 80 & 51.2 & 0 & 80 & 0 \\ 0 & 0 & 0 & 64 & 0 & 100 \\ 0 & 0 & 0 & 0 & 0 & 100 \\ \end{pmatrix} </math> Algoritmens læringsprosess er nå fullført, og algoritmen avslutter. Ved å benytte verdiene gitt i matrise <math>Q</math>, kan agenten nå i et rom observere Q-verdiene tilhørende hver inngang gitt i matrisen <math>Q</math>, og enkelt velge den utgangen med høyest verdi. Det er nettopp denne utgangen som bringer agenten raskest målet <math>S = G</math>. Dersom to eller flere utganger har samme Q-verdi, bringer de agenten til målet like raskt, og agenten kan da tilfeldig velge én av disse.
Redigeringsforklaring:
Merk at alle bidrag til Wikisida.no anses som frigitt under Creative Commons Navngivelse-DelPåSammeVilkår (se
Wikisida.no:Opphavsrett
for detaljer). Om du ikke vil at ditt materiale skal kunne redigeres og distribueres fritt må du ikke lagre det her.
Du lover oss også at du har skrevet teksten selv, eller kopiert den fra en kilde i offentlig eie eller en annen fri ressurs.
Ikke lagre opphavsrettsbeskyttet materiale uten tillatelse!
Avbryt
Redigeringshjelp
(åpnes i et nytt vindu)
Denne siden er medlem av 1 skjult kategori:
Kategori:CS1-vedlikehold: Uheldig URL
Navigasjonsmeny
Personlige verktøy
Ikke logget inn
Brukerdiskusjon
Bidrag
Opprett konto
Logg inn
Navnerom
Side
Diskusjon
norsk bokmål
Visninger
Les
Rediger
Rediger kilde
Vis historikk
Mer
Navigasjon
Forside
Siste endringer
Tilfeldig side
Hjelp til MediaWiki
Verktøy
Lenker hit
Relaterte endringer
Spesialsider
Sideinformasjon