Redigerer Forsterkende læring (avsnitt)

==Den forsterkende funksjonen==
Avbildinga fra tilstand til handling er forbundet med belønning eller straff. Dersom agenten er i tilstand X, så kan den motta forskjellige belønninger ut ifra hvilken handling den velger. Spørsmålet er hvorvidt den skal utforske og få mer kunnskap om omgivelsene, eller være grådig, noe som i maskinlæring vil si å velge handlingen som gir størst belønning. Når agenten er ferdig utlært vil den alltid være grådig og utføre de handlinger som maksimerer summen av belønninger.