RBC: Aprendizaje por Refuerzo

Buenas,

Estoy viendo las transparencias de la clase 7 y me surge una duda con la definicion de la función pi:

¿No deberia el argmax incluir r? o sea: pi(s)=argmax_a {r + V(next(s, a))} ??

Un saludo,

Gabriel

Re: Aprendizaje por Refuerzo

de Facundo Benavides - lunes, 26 de junio de 2023, 14:34

hola, lo primero es señalar que en la clase vimos el enfoque más general, donde teníamos 2 tablas: el valor y la política, separadamente.
entonces, pensando qué representa una política óptima. la expresión es dice "lo que todos pensamos": elijo en cada estado la acción que maximiza el valor del siguiente estado. o, según el valor del estado destino, la acción óptima.
qué pasa con la recompensa y dónde se refleja el refuerzo en el aprendizaje según esta propuesta. en la actualización del valor!
la primera ecuación actualiza el valor de un estado 's' considerando la recompensa máxima a partir de una acción 'a' y el valor del estado alcanzado al tomar la acción 'a' desde 's'.
de este modo, cuando utilizo la política estoy, indirectamente, tomando en cuenta la acumulación óptima de recompensas recibidas desde ese estado.
salud