Errores al correr en el Cluster

Errores al correr en el Cluster

de Bruno Cabrera Martínez -
Número de respuestas: 3

Buenas!, me esta pasando que cuando mando a correr un trabajo no me encuentra el cuda-memcheck

 dir="ltr" style="text-align: left;">/var/spool/slurm/d/job2861004/slurm_script: line 39: cuda-memcheck: command not found

Tampoco esta encontrando el compilador de cuda

make: nvcc: Command not found

Ya me ha pasado anteriormente, calculo que no me está agarrando un nodo con GPU, podrá ser la configuración del script para lanzar el trabajo?

    #!/bin/bash
    #SBATCH --job-name=gpgpu10_practico4_ej1
    #SBATCH --ntasks=1
    #SBATCH --mem=1G
    #SBATCH --time=00:01:00

    #SBATCH --partition=besteffort
    # SBATCH --partition=normal

    #SBATCH --qos=besteffort_gpu
    # SBATCH --qos=gpu

    #SBATCH --gres=gpu:p100:1
    # #SBATCH --mail-type=ALL
    #SBATCH --mail-user=mi@correo
    #SBATCH -o salidaEj1a.out

    export PATH=$PATH:/usr/local/cuda/bin
    export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/lib64

    make perf

    ## Variables

    # Output CSV file name with execution times
    file="test.csv"
    # Algorithm to be executed
    # 0: SIMPLE_TRANSPOSE
    # 1: IMPROVED_TRANSPOSE
    # 2: IMPROVED_TRANSPOSE_DUMMY

    rm -f $file

    echo "Algorithm,Ms" > $file

    nsys --version

    for algorithm in {2..2}
    do
    cuda-memcheck ./histogram in/fing1.pgm $algorithm >> $file
    done

El make perf solo tira esto

	nvcc -arch=sm_60 -Xptxas -dlcm=cg main.cpp histogram.cu -o histogram -O3 -L/usr/X11R6/lib -lm -lpthread -lX11 -g -lineinfo

Tienen idea si algo en el script pueda estar mal?
Saludos, Muchas gracias!

En respuesta a Bruno Cabrera Martínez

Re: Errores al correr en el Cluster

de Ernesto Dufrechou -
Hola, mirando la página de ayuda de clusteruy (https://cluster.uy/ayuda/como_ejecutar/#trabajo-besteffort-con-gpu) la única diferencia que veo es que qos es besteffort en lugar de besteffort_gpu.
Otra cosa que podés probar es correr en la partición normal con gpu siguiendo las indicaciones en la página.
Saludos!
En respuesta a Ernesto Dufrechou

Re: Errores al correr en el Cluster

de Bruno Cabrera Martínez -
Dale gracias! Voy a revisar bien la página.
Saludos!
En respuesta a Bruno Cabrera Martínez

Re: Errores al correr en el Cluster

de Bruno Cabrera Martínez -
Parece que al final en cuda 12 cambiaron cuda-memcheck por compute-sanitizer. Ahora anda bien, lo raro es que en un nodo me llego a andar el memcheck, capaz actualizaron recientemente o no todos tienen la misma version.

https://docs.nvidia.com/cuda/archive/12.0.0/cuda-toolkit-release-notes/index.html#deprecated-features