Hola,
creo que ahora sí entendí tu duda. Mi respuesta anterior viene de aplicar el algoritmo como está en el libro de Sutton:
- para cada episodio K=0...
- genero una trayectoria de T pasos (fin del episodio).
- para cada paso del episodio:
- calculo el gradiente con (St,At,Gt), actualizo los pesos.
Entiendo (corregime si me equivoco) que tu propuesta es hacer algo más parecido a las slides del curso:
- para cada episodio K=0...
- genero una trayectoria de T pasos (fin del episodio).
- inicializar grad=0
- para cada paso del episodio:
- calculo el gradiente con (St,At,Gt), se lo sumo a grad.
- actualizo los pesos.
Las dos formulaciones son equivalentes: en la de Sutton hay T actualizaciones de la política para cada episodio, mientras que en la de las slides hay una actualización por episodio (que contempla "todos" los gradientes). Usar cualquiera de las dos está bien. Lo importante es que las actualizaciones se hacen recién al terminar un episodio, y no durante el episodio.
Un comentario aparte, no menor: el algoritmo de las slides del curso asume . El caso se analiza bien en el libro.
Espero que esto haya aclarado, cualquier cosa dale de vuelta.
Saludos,
Agustin