Entrega 1, ejercicio 2

Entrega 1, ejercicio 2

de Alvaro Valdes -
Número de respuestas: 0

Estimados,

¿Alguno tiene la definición de la primera ecuación?

Me refiero al término.

Eaπ[qπ(s,a)]

Comparto mi duda. Llevo varios dias intentando entender.

Según entiendo es notación cuando las politicas son estocásticas y no determinísticas, pero si fueran estocasticas parece razonable ajustar la definición de q(s,a), sino no veo un camino para llegar a la demostración.

De lo que logro entender de la lectura del libro, haciendo el camino inverso, deberia ser:


Según entiendo las demostraciones en Sutton  estan basadas en determínisticas.

Gracias,

Alvaro