Buenas,
el ejercicio 3.1 plantea implementar PolicyEvaluation y entiendo que la parte a completar es la que está dentro de los dos for anidados, pero el pseudocódigo muestra un loop inicial hasta que la solución deje de mejorarse.
Entiendo que debemos modificar la estructura de la función más allá del espacio marcado para eso ¿está bien?
Además, en el ejercicio 3.1 se nos pide graficar la función de valor a medida que avanzamos en la iteración, esto lo deberíamos hacer en la función o modificar la función para que además retorne la historia de los cambios ¿está bien o no estoy entendiendo nada?
Saludos