Estimados,
está disponible el cuarto (¡y último!) entregable. Trata sobre Actor-critic y Q-learning.
Como son métodos basados en TD (temporal difference), las actualizaciones a la política y/o función de valor se hacen en cada paso del episodio. Gracias a esto, se obtienen ---al menos en la práctica--- muchos mejores resultados que para REINFORCE.
Van a implementar esos algoritmos en el problema del péndulo invertido y en varios grid-worlds.
Saludos,
Agustin