En la tarea 2.1.1, clase PolicyApproximator, dentro de la función __init__ , en la definición de self.output_layer, llamando a tf.contrib.layers.fully_connected, debería pasarse num_outputs=num_actions en lugar de num_outputs=1
Antes:
self.output_layer = tf.contrib.layers.fully_connected(
inputs=tf.expand_dims(state_one_hot, 0),
num_outputs=1,
activation_fn=None,
weights_initializer=tf.zeros_initializer)
Ahora:
self.output_layer = tf.contrib.layers.fully_connected(
inputs=tf.expand_dims(state_one_hot, 0),
num_outputs=num_actions,
activation_fn=None,
weights_initializer=tf.zeros_initializer)
Mil disculpas por este cambio. Ya se corrigió en la versión de Google Colab que está linkeada en la letra de los entregables.