Redigerer Forsterkende læring (avsnitt)

==Verdifunksjon==
Verdifunksjonen avgjør spørsmålet om hvordan agenten lærer å velge "gode" handlinger, eller hvordan vi kan måle nytten av en gitt handling. Først trenger vi en plan som bestemmer hvilke  handlinger som skal utføres i hver tilstand. Verdien av en tilstand er definert som summen av belønningene som blir mottatt gjennom læringsprosessen. Dette blir omgjort til faste retningslinjer når læringen er ferdig. Den optimale planen vil derfor være at avbildinga fra tilstand til handling har den maksimale summen av belønninger når agenten begynner i en vilkårlig tilstand og utfører handlinger til den endelige tilstanden er nådd. En verdifunksjon kan for eksempel bli definert ved en enkel markovsk beslutningsprosess.