Buenas, hicimos muchas pruebas considerando el tamaño nuestra caché, calculamos para que entren al menos dos bloques en L1 (y en toda la caché) para poder probar lo que pide el ejercicio 2, parte 2.
Somos dos en el grupo y el problema es que al correr el programa en una de las máquinas que tiene windows demora más en la multiplicación por bloques a no ser que pongamos -O1 (flag de optimización).
En la otra que también tiene windows funciona como es esperado sin la flag. Por las dudas probamos en una máquina de la fing y también funciona como es esperado.
No sabemos cómo justificar este tema en el informe ni si es parte del scope.
Gracias, saludos.