Buenas,
¿A alguien le funciona bien el algoritmo en el caso continuo? Probando diferentes valores de env.power, encontré que con 0.0040 (o por ahí), en lugar de 0.0015, funciona muy rápido y resuelve bien el problema. Con 0.0015 nunca alcanza el objetivo, y la solución que termina dando apenas mueve el carrito.
Comprobé ambas soluciones usando el script de animación que se sugirió hace unos días. En ese script se crea el entorno con la sentencia "env = gym.make('MountainCarContinuous-v0')", es decir, no se especifica el valor de env.power, por lo que la solución que funciona debería ser valida.
Agradecería algún tipo de feedback al respecto,
Gracias!
Gabriel