Aprendizaje por Refuerzo

Re: Aprendizaje por Refuerzo

de Facundo Benavides -
Número de respuestas: 0
hola, lo primero es señalar que en la clase vimos el enfoque más general, donde teníamos 2 tablas: el valor y la política, separadamente.
entonces, pensando qué representa una política óptima. la expresión es dice "lo que todos pensamos": elijo en cada estado la acción que maximiza el valor del siguiente estado. o, según el valor del estado destino, la acción óptima.
qué pasa con la recompensa y dónde se refleja el refuerzo en el aprendizaje según esta propuesta. en la actualización del valor!
la primera ecuación actualiza el valor de un estado 's' considerando la recompensa máxima a partir de una acción 'a' y el valor del estado alcanzado al tomar la acción 'a' desde 's'.
de este modo, cuando utilizo la política estoy, indirectamente, tomando en cuenta la acumulación óptima de recompensas recibidas desde ese estado.
salud