Aprendizaje por Refuerzo

Aprendizaje por Refuerzo

de Gabriel Rodriguez Frangias -
Número de respuestas: 1

Buenas,

Estoy viendo las transparencias de la clase 7 y me surge una duda con la definicion de la función pi:


¿No deberia el argmax incluir r? o sea: pi(s)=argmax_a {r + V(next(s, a))} ??

Un saludo,

Gabriel

En respuesta a Gabriel Rodriguez Frangias

Re: Aprendizaje por Refuerzo

de Facundo Benavides -
hola, lo primero es señalar que en la clase vimos el enfoque más general, donde teníamos 2 tablas: el valor y la política, separadamente.
entonces, pensando qué representa una política óptima. la expresión es dice "lo que todos pensamos": elijo en cada estado la acción que maximiza el valor del siguiente estado. o, según el valor del estado destino, la acción óptima.
qué pasa con la recompensa y dónde se refleja el refuerzo en el aprendizaje según esta propuesta. en la actualización del valor!
la primera ecuación actualiza el valor de un estado 's' considerando la recompensa máxima a partir de una acción 'a' y el valor del estado alcanzado al tomar la acción 'a' desde 's'.
de este modo, cuando utilizo la política estoy, indirectamente, tomando en cuenta la acumulación óptima de recompensas recibidas desde ese estado.
salud