Buenos días:
Tengo algunas dudas sobre reinforce y el laboratorio:
1. La primer duda es respecto al gradiente de J , ¿por qué aparece \sum_{t} dentro de la esperanza?. En el libro Sutton & Barton el gradiente es . ¿Cual es la diferencia?
2. La idea es buscar los parámetros que maximizan la performance de la política, utilizando el ascenso por el gradiente mediante una estimación de lo que sería el gradiente de la performance de la política. Esto es lo que plantea reinforce. Pasando al laboratorio, tensorflow espera que le pasemos la función que el reinforce está optimizando (loss), es decir, la inversa de la estimación encontrada por el reinforce. ¿Esto es correcto?
3. El laboratorio dice que vamos a utilizar aproximación lineal para la política: ¿en que parte se le dice a Tensorflow que la aproximación va a ser lineal?
Desde ya muchas gracias.
Saludos.
Giovanna.