GPGPU: Conexión y ejecución de trabajos en máquina con GPU

Conexión

Se recomienda agregar la clave pública al archivo ~/.ssh/authorized_keys (o usar el comando ssh-copy-id) de lulu para no tener que poner la contraseña estudiantil cada vez.

Pueden iniciar sesión con cualquiera de las siguientes dos opciones, en ambas deben usar su usuario estudiantil de FING.

Si usuario_estudiante es su usuario estudiantil y usuario_curso el usuario dentro del cluster (usuario del grupo):

a) comando SSH "largo"

ssh -J usuario_estudiante@lulu.fing.edu.uy usuario_curso@gw-incosrv -p 52214

para copiar archivos desde la máquina local hacia el servidor:

scp -o ProxyJump=usuario_estudiante@lulu.fing.edu.uy -P 52214 {archivo} usuario_curso@gw-incosrv:/clustergpu/home/...

para copiar archivos desde el servidor hacia la máquina local:

scp -o ProxyJump=usuario_estudiante@lulu.fing.edu.uy -P 52214 usuario_curso@gw-incosrv:/clustergpu/home/...{archivo} .

b) configurando el host en el archivo config de SSH

Para simplificar el proceso, agregar el siguiente contenido a ~/.ssh/config

Host lulu
    HostName lulu.fing.edu.uy
    User usuario_estudiante
    IdentityFile ~/.ssh/id_rsa (ajustar si la clave es otra)

Host login-gpu
    HostName gw-incosrv
    Port 52214
    User usuario_curso
    IdentityFile ~/.ssh/id_rsa (ajustar si es otra)
    ProxyJump lulu

Y luego se conectan solo con el comando "ssh login-gpu".

La copia de archivos con scp también se simplifica:

scp {archivo} login-gpu:/clustergpu/home/.../{archivo}

Ejecución de trabajos

La ejecución de trabajos (incluyendo la compilación de los programas) deben realizarla mediante el gestor de trabajos Slurm.

Para eso hay que usar el script que les proporcionamos haciendo los cambios correspondientes y ejecutando de la siguiente manera:

sbatch lanzar.sh

Dentro del script se encuentra la configuración del trabajo para el gestor Slurm. La partición debe ser "cursos" y qos "gpgpu".

Existe un límite de recursos por usuario de 2 cores CPU, 16G de RAM y 1 GPU, y el tiempo máximo por trabajo es de una hora.

Además los usuarios no pueden tener más de dos trabajos ejecutando concurrentemente (por los límites uno sería sin GPU) y un máximo de 5 trabajos en cola.

Ayuda

La configuración del servidor con GPU y el gestor Slurm es muy similar a la utilizada por la plataforma ClusterUY, por lo que la información disponible en https://cluster.uy/ayuda/ puede resultar útil en caso de encontrar dificultades al utilizar la infraestructura.

Última modificación: miércoles, 2 de abril de 2025, 16:14