APR: Entregable 4

Estimados,

está disponible el cuarto (¡y último!) entregable. Trata sobre Actor-critic y Q-learning.

Como son métodos basados en TD (temporal difference), las actualizaciones a la política y/o función de valor se hacen en cada paso del episodio. Gracias a esto, se obtienen ---al menos en la práctica--- muchos mejores resultados que para REINFORCE.

Van a implementar esos algoritmos en el problema del péndulo invertido y en varios grid-worlds.

Saludos,

Agustin