Estimados,
quedó habilitado el tercer entregable. La idea principal es revisitar los entornos del entregable anterior, agregando baselines y viendo si la cosa mejora. Presentamos además un entorno nuevo: el péndulo invertido.
En particular, para el problema del carrito les pedimos usar Tile Coding para implementar la política soft-max y el baseline lineal. Creo que quedó bastante guiada, los resultados de las simulaciones deberían ser muy buenos.
Estamos a las órdenes por cualquier consulta.
Saludos cordiales,
Agustin