Pequeños cambios en el Obligatorio 2

Pequeños cambios en el Obligatorio 2

de Agustin Castellano -
Número de respuestas: 0

Estimados,

modificamos un par de cosas en la letra del Obligatorio 2. A saber:

  • 1.2.1) la función gradient_step debe tomar como input el tiempo del episodio.
  • 2.1.2) En la clase que define al carrito, sacamos la salida {} del método step . Con esta modificación pueden reutilizar para la parte 2 la función reinforce que usaron en la parte 1.
  • 2.1.3 y 2.3) Para visualizar el aprendizaje en el problema del carrito, les pedimos que en vez de graficar el retorno descontado grafiquen la duración de un episodio vs. la cantidad de episodios entrenados. Esto último es más intuitivo: si un episodio dura poco significa que el agente está bien entrenado.

 

Pueden implementar estas modificaciones en el notebook que estén usando, o volver a bajar la letra de acá.

 

Saludos,

Agustin