Estimados,
¿Alguno tiene la definición de la primera ecuación?
Me refiero al término.
Ea∼π′[qπ(s,a)]
Comparto mi duda. Llevo varios dias intentando entender.
Según entiendo es notación cuando las politicas son estocásticas y no determinísticas, pero si fueran estocasticas parece razonable ajustar la definición de q(s,a), sino no veo un camino para llegar a la demostración.
De lo que logro entender de la lectura del libro, haciendo el camino inverso, deberia ser:
Según entiendo las demostraciones en Sutton estan basadas en determínisticas.
Gracias,
Alvaro