Conexión y ejecución de trabajos en máquina con GPU
Conexión y ejecución de trabajos en máquina con GPU
Conexión
Se recomienda agregar la clave pública al archivo ~/.ssh/authorized_keys (o usar el comando ssh-copy-id) de lulu para no tener que poner la contraseña estudiantil cada vez.
Pueden iniciar sesión con cualquiera de las siguientes dos opciones, en ambas deben usar su usuario estudiantil de FING.
Si usuario_estudiante es su usuario estudiantil y usuario_curso el usuario dentro del cluster (usuario del grupo):
a) comando SSH "largo"
ssh -J usuario_estudiante@lulu.
para copiar archivos desde la máquina local hacia el servidor:
scp -o ProxyJump=usuario_estudiante@lulu.fing.edu.uy -P 52214 {archivo} usuario_curso@gw-incosrv:/clustergpu/home/...
para copiar archivos desde el servidor hacia la máquina local:
scp -o ProxyJump=usuario_estudiante@lulu.fing.edu.uy -P 52214 usuario_curso@gw-incosrv:/clustergpu/home/...{archivo} .
b) configurando el host en el archivo config de SSH
Para simplificar el proceso, agregar el siguiente contenido a ~/.ssh/config
Host lulu HostName lulu.fing.edu.uy User usuario_estudiante IdentityFile ~/.ssh/id_rsa (ajustar si la clave es otra)
Host login-gpu HostName gw-incosrv Port 52214 User usuario_curso IdentityFile ~/.ssh/id_rsa (ajustar si es otra) ProxyJump lulu
Y luego se conectan solo con el comando "ssh login-gpu".
La copia de archivos con scp también se simplifica:
scp {archivo} login-gpu:/clustergpu/home/.../{archivo}
Ejecución de trabajos
La ejecución de trabajos (incluyendo la compilación de los programas) deben realizarla mediante el gestor de trabajos Slurm.
Para eso hay que usar el script que les proporcionamos haciendo los cambios correspondientes y ejecutando de la siguiente manera:
sbatch lanzar.sh
Dentro del script se encuentra la configuración del trabajo para el gestor Slurm. La partición debe ser "cursos" y qos "gpgpu".
Existe un límite de recursos por usuario de 2 cores CPU, 16G de RAM y 1 GPU, y el tiempo máximo por trabajo es de una hora.
Además los usuarios no pueden tener más de dos trabajos ejecutando concurrentemente (por los límites uno sería sin GPU) y un máximo de 5 trabajos en cola.
Ayuda
La configuración del servidor con GPU y el gestor Slurm es muy similar a la utilizada por la plataforma ClusterUY, por lo que la información disponible en https://cluster.uy/ayuda/ puede resultar útil en caso de encontrar dificultades al utilizar la infraestructura.