DRL: Uso de TensorFlow en RL Lab2

me tranqué en: "RL Lab 2: REINFORCE Agent with Function Approximation". Si bien entiendo los conceptos (el de ir aproximando una función de valor por funciones en lugar de usar una tabla de aproximación) no me resulta intuitivo como completar el código con la información del curso (+ el libro). Me leí un tutorial de TensoFlow a ver si lograba hacerlo, pero veo que no es tan sencillo. ¿tienen algún material de apoyo para esta parte?.

Re: Uso de TensorFlow en RL Lab2

de Jose Lezama - miércoles, 24 de abril de 2019, 11:36

Hola Ruben,

Sobre Tensorflow no tenemos material específico, más allá del ejemplo sencillo que se dio en el curso. Hay muchos tutoriales en línea y en particular sobre como implementar el algoritmo Reinforce u otras variantes de Policy Gradients.

En el caso de este ejercicio, la clave está en cómo formular la función de loss de forma que los parámetros de la capa "self.output_layer" se actualicen para dar mayor probabilidad a las acciones que dieron mayor retorno.

Una vez definida la función de loss, para hacer que TF la optimice, el ejemplo que se dio en el curso puede servir de guía.

Saludos,

José