En el Assignment1, la fórmula del UCB a emplear es diferente en las transparencias del curso respecto a la que aparece en Sutton y Barto, capítulo 2.
Obviamente no tienen diferencias conceptuales pero a igualdad del c las bandas tienen ancho distinto. (En SyB el c está fuera de la raíz cuadrada y en las transparencias está adentro). De las dos maneras aparecen fenómenos explicables. ¿Cuál sería la fórmula preferente a implementar?