Buen día,
Con mi compañero estamos teniendo problemas corriendo en las maquinas de facultad la multiplicación de matrices para las matrices de 10240x10240. Probando la primera version, que al ser tan directa dudamos tenga algún error grave de implementación (ademas los resultados verifican contra los generados en CPU), el tiempo de ejecución excede los 2 segundos, por lo que Windows genera un timeout y resetea el driver de video (http://docs.nvidia.com/gameworks/content/developertools/desktop/timeout_detection_recovery.htm). Por otro lado, probando en una computadora con el TDR configurado en 30 segundos, el mismo kernel termina correctamente, pero demora 9.2 segundos, con una placa de video mucho mas potente que las GTX 480 de la sala de maquinas (una 980 Ti en este caso), así que es probable que el tiempo en las maquinas de facultad exceda los 20 s.
La pregunta es si tenemos algún error que no estamos viendo que cause esos tiempos tan altos, y esos tamaños son correctos, o hubo un error de tipeo en la letra.
Muchas gracias