Redigerer
Q-læring
(avsnitt)
Hopp til navigering
Hopp til søk
Advarsel:
Du er ikke innlogget. IP-adressen din vil bli vist offentlig om du redigerer. Hvis du
logger inn
eller
oppretter en konto
vil redigeringene dine tilskrives brukernavnet ditt, og du vil få flere andre fordeler.
Antispamsjekk.
Ikke
fyll inn dette feltet!
=== Definisjon === Før læringsprosessen starter, returnerer ''Q'' en tilfeldig verdi. Deretter velger agenten en handling, og observerer en belønning og en ny tilstand som kan påvirkes av forrige tilstand og den valgte handlingen. Algoritmens kjerne er en enkel oppdatering av verdier den returnerer av gitte tilstander og handlinger. Den betrakter den gamle verdien og utfører en korrigering basert på den nye informasjonen: :<math>Q_{t+1}(s_{t},a_{t}) = \underbrace{Q_t(s_t,a_t)}_{\rm gammel~verdi} + \underbrace{\alpha_t(s_t,a_t)}_{\rm learning~verdi} \times \left[ \overbrace{\underbrace{R_{t+1}}_{\rm reward} + \underbrace{\gamma}_{\rm diskonteringsfaktor} \underbrace{\max_{a}Q_t(s_{t+1}, a_t)}_{\rm estimat~av~optimal~fremtidig~verdi}}^{\rm learned~verdi} - \underbrace{Q_t(s_t,a_t)}_{\rm gammel~verdi} \right]</math> der ''<math>R_{t+1}</math>'' er den observerte belønningen etter å ha utført handling <math>a_{t}</math> i tilstand <math>s_{t}</math>, og der <math>\alpha_t(s, a)</math> (<math>0 < \alpha \le 1</math>) er læringssraten som gir informasjon om hvor stor grad den nye informasjonen skal overskrive den gamle informasjonen. Læringsraten kan være identisk for alle par i læringsprosessen. Diskonteringsfaktoren (eng. ''Discount factor'') <math>\gamma</math> (<math>0 \le \gamma \le 1</math>) gir informasjon om viktigheten av fremtidige belønninger. En gjennomkjøring (kalt ''episode'') av algoritmen ender når tilstanden <math>s_{t+1}</math> er i måltilstanden.
Redigeringsforklaring:
Merk at alle bidrag til Wikisida.no anses som frigitt under Creative Commons Navngivelse-DelPåSammeVilkår (se
Wikisida.no:Opphavsrett
for detaljer). Om du ikke vil at ditt materiale skal kunne redigeres og distribueres fritt må du ikke lagre det her.
Du lover oss også at du har skrevet teksten selv, eller kopiert den fra en kilde i offentlig eie eller en annen fri ressurs.
Ikke lagre opphavsrettsbeskyttet materiale uten tillatelse!
Avbryt
Redigeringshjelp
(åpnes i et nytt vindu)
Denne siden er medlem av 1 skjult kategori:
Kategori:CS1-vedlikehold: Uheldig URL
Navigasjonsmeny
Personlige verktøy
Ikke logget inn
Brukerdiskusjon
Bidrag
Opprett konto
Logg inn
Navnerom
Side
Diskusjon
norsk bokmål
Visninger
Les
Rediger
Rediger kilde
Vis historikk
Mer
Navigasjon
Forside
Siste endringer
Tilfeldig side
Hjelp til MediaWiki
Verktøy
Lenker hit
Relaterte endringer
Spesialsider
Sideinformasjon