Redigerer
Q-læring
(avsnitt)
Hopp til navigering
Hopp til søk
Advarsel:
Du er ikke innlogget. IP-adressen din vil bli vist offentlig om du redigerer. Hvis du
logger inn
eller
oppretter en konto
vil redigeringene dine tilskrives brukernavnet ditt, og du vil få flere andre fordeler.
Antispamsjekk.
Ikke
fyll inn dette feltet!
== Algoritmens variabler == === Læringsrate === [[Læringsrate]]n bestemmer i hvor stor grad den nye tilegnede informasjonen skal erstatte den gamle informasjonen, og er <math>0 < \alpha \le 1</math>. Dersom raten <math>\alpha = 0</math>, skal ingenting av den nye versjonen erstatte den gamle, og agenten har derfor ikke lært noe. Derimot, dersom <math>\alpha = 1</math>, skal all gammel informasjon erstattes av den nye, og agenten har da fått maksimalt læringsutbytte. Derfor er en læringsrate på 1 optimal i fullt deterministiske miljøer. I praksis er vanligvis en læringsrate av en konstant verdi benyttet, for eksempel <math>\alpha_t(s,a) = 0.1</math> for alle <math>t</math>.<ref>[http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html Reinforcement Learning: An Introduction] {{Wayback|url=http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html |date=20090904194934 }}. Richard Sutton and Andrew Barto. MIT Press, 1998.</ref> === Diskonteringsfaktor === Diskonteringsfaktoren <math>\gamma</math> bestemmer viktigheten av fremtidige belønninger. Dersom <math>\gamma = 0</math> vil agenten ha en oppførsel liknende en [[grådig algoritme]], hvor kun de umiddelbare belønningene evalueres i bestemmelse av optimal handling i en tilstand. Derimot, dersom <math>\gamma = 1</math>, vil agenten heller ønske en maksimal langsiktig total belønning. Dersom dette er tilfellet, og agenten ikke befinner seg i et miljø med en terminaltilstand (sluttilstand), eller at agenten aldri når en slik tilstand, vil alle episoder av algoritmen være uendelig lange. Dette fordi agenten får høyere belønning jo flere tilstander den besøker. === Initielle forhold === Når algoritmen først starter, har ikke den lært noe. Derfor må Q-learning ha noen initielle verdier å benytte i de første kalkuleringene. Den forventer et initielt forhold før den første oppdateringen foretas. Et høyt initielt forhold fremmer utforskning: uansett hvilken handling som foretas, vil den nye kalkulerte verdien av Q-funksjonen erstatte gammel informasjon. Dermed, første gang en handling blir gjort, vil belønningen bli brukt til å sette den nye verdien til <math>Q</math>.<ref>{{cite book|author1=[[Stuart J. Russell]]|author2=[[Peter Norvig]]|title=Artificial Intelligence: A Modern Approach|date=2010|publisher=[[Prentice Hall]]|isbn=978-0136042594|page=649|edition=Third|url=http://51lica.com/wp-content/uploads/2012/05/Artificial-Intelligence-A-Modern-Approach-3rd-Edition.pdf|accessdate=17. oktober 2014|url-status=dead|archiveurl=https://web.archive.org/web/20141020191456/http://51lica.com/wp-content/uploads/2012/05/Artificial-Intelligence-A-Modern-Approach-3rd-Edition.pdf|archivedate=2014-10-20|tittel=Arkivert kopi|besøksdato=2014-10-17|arkivurl=https://web.archive.org/web/20141020191456/http://51lica.com/wp-content/uploads/2012/05/Artificial-Intelligence-A-Modern-Approach-3rd-Edition.pdf|arkivdato=2014-10-20|url-status=død}} {{Kilde www |url=http://51lica.com/wp-content/uploads/2012/05/Artificial-Intelligence-A-Modern-Approach-3rd-Edition.pdf |tittel=Arkivert kopi |besøksdato=2014-11-06 |arkiv-dato=2014-10-20 |arkiv-url=https://web.archive.org/web/20141020191456/http://51lica.com/wp-content/uploads/2012/05/Artificial-Intelligence-A-Modern-Approach-3rd-Edition.pdf |url-status=unfit }}</ref>
Redigeringsforklaring:
Merk at alle bidrag til Wikisida.no anses som frigitt under Creative Commons Navngivelse-DelPåSammeVilkår (se
Wikisida.no:Opphavsrett
for detaljer). Om du ikke vil at ditt materiale skal kunne redigeres og distribueres fritt må du ikke lagre det her.
Du lover oss også at du har skrevet teksten selv, eller kopiert den fra en kilde i offentlig eie eller en annen fri ressurs.
Ikke lagre opphavsrettsbeskyttet materiale uten tillatelse!
Avbryt
Redigeringshjelp
(åpnes i et nytt vindu)
Denne siden er medlem av 1 skjult kategori:
Kategori:CS1-vedlikehold: Uheldig URL
Navigasjonsmeny
Personlige verktøy
Ikke logget inn
Brukerdiskusjon
Bidrag
Opprett konto
Logg inn
Navnerom
Side
Diskusjon
norsk bokmål
Visninger
Les
Rediger
Rediger kilde
Vis historikk
Mer
Navigasjon
Forside
Siste endringer
Tilfeldig side
Hjelp til MediaWiki
Verktøy
Lenker hit
Relaterte endringer
Spesialsider
Sideinformasjon