Hola Ruben,
Sobre Tensorflow no tenemos material específico, más allá del ejemplo sencillo que se dio en el curso. Hay muchos tutoriales en línea y en particular sobre como implementar el algoritmo Reinforce u otras variantes de Policy Gradients.
En el caso de este ejercicio, la clave está en cómo formular la función de loss de forma que los parámetros de la capa "self.output_layer" se actualicen para dar mayor probabilidad a las acciones que dieron mayor retorno.
Una vez definida la función de loss, para hacer que TF la optimice, el ejemplo que se dio en el curso puede servir de guía.
Saludos,
José