Hola, al final del ejercicio 2 piden graficar en un imshow el máximo valor de Q para cada entrada del laberinto.
Mi pregunta es: es el valor máximo de Q para ese estado? O sería el argumento máximo? De esa forma quedaría el típico mapita de flechas (o en este caso colores) que indican para donde moverse al agente.