APR: Practico 2 Ejercicio 1.2

En el ejercicio 1.2, en el algoritmo REINFORCE, la actualización de los pesos (weights) debe realizarse en el ciclo donde recorremos los steps de los episodios o se debe realizar fuera de este ciclo cuando completamos de procesar los steps del episodio ??

La pregunta viene porque noto la diferencia en el algoritmo de la pagina 328 del libro de sutton vs el mismo algoritmo en la slide del curso.

Muchas Gracias.

Re: Practico 2 Ejercicio 1.2

de Agustin Castellano - jueves, 22 de abril de 2021, 09:30

Hola Sebastián,

no se si entendí del todo tu pregunta. Pero en REINFORCE la idea es:
- corro un episodio entero (supongamos T pasos)
- recién al terminar actualizo los pesos, T veces.

Cualquier cosa volvé a preguntar.
Saludos,
Agustin

Re: Practico 2 Ejercicio 1.2

de Nelson Sebastian Laborde Castillo - jueves, 22 de abril de 2021, 12:51

Agustín, muchas gracias por tu respuesta.

Cuando decís "recién al terminar actualizo los pesos, T veces.", no seria K veces siendo K el nro de episodios ?? es decir fuiste sumando el gradiente en los T pasos y luego lo actualizas al terminar de procesar el episodio, como corres K episodios, la matriz de pesos se actualiza K veces.

Re: Practico 2 Ejercicio 1.2

de Agustin Castellano - jueves, 22 de abril de 2021, 14:29

Hola,

creo que ahora sí entendí tu duda. Mi respuesta anterior viene de aplicar el algoritmo como está en el libro de Sutton:

- para cada episodio K=0...

- genero una trayectoria de T pasos (fin del episodio).

- para cada paso del episodio:

- calculo el gradiente con (St,At,Gt), actualizo los pesos.

Entiendo (corregime si me equivoco) que tu propuesta es hacer algo más parecido a las slides del curso:

- para cada episodio K=0...

- genero una trayectoria de T pasos (fin del episodio).

- inicializar grad=0

- para cada paso del episodio:

- calculo el gradiente con (St,At,Gt), se lo sumo a grad.

- actualizo los pesos.

Las dos formulaciones son equivalentes: en la de Sutton hay T actualizaciones de la política para cada episodio, mientras que en la de las slides hay una actualización por episodio (que contempla "todos" los gradientes). Usar cualquiera de las dos está bien. Lo importante es que las actualizaciones se hacen recién al terminar un episodio, y no durante el episodio.

Un comentario aparte, no menor: el algoritmo de las slides del curso asume $\gamma=1$ . El caso $\gamma < 1$ se analiza bien en el libro.

Espero que esto haya aclarado, cualquier cosa dale de vuelta.

Saludos,

Agustin

Re: Practico 2 Ejercicio 1.2

de Nelson Sebastian Laborde Castillo - jueves, 22 de abril de 2021, 22:21

Exactamente esa fue mi pregunta. Quedo claro. Muchas Gracias Agustín.