Entregable 4

Entregable 4

de Agustin Castellano -
Número de respuestas: 0

Estimados,

 

está disponible el cuarto (¡y último!) entregable. Trata sobre Actor-critic y Q-learning.

Como son métodos basados en TD (temporal difference), las actualizaciones a la política y/o función de valor se hacen en cada paso del episodio. Gracias a esto, se obtienen ---al menos en la práctica---  muchos mejores resultados que para REINFORCE.

Van a implementar esos algoritmos en el problema del péndulo invertido y en varios grid-worlds. 

 

Saludos,

Agustin