[ClusterUY] Jobs no se ejecutan

[ClusterUY] Jobs no se ejecutan

de Juan Ramirez -
Número de respuestas: 4

Hola,

Ya lo mencionaron en la respuesta al post anterior pero me pareció oportuno crear un thread específico para este problema porque el jueves a la noche me pasó lo mismo.

Los jobs que mando a ejecutar quedan como pendientes por un tiempo muy largo. No me animo a decir que no se ejecutan nunca porque en la metadata se ve una fecha de inicio será en 2 días.

Les adjunto el detalle del último job que mandé a ejecutar.

[gpgpu10@login ~]$ scontrol show job 2466846
JobId=2466846 JobName=mitrabajo
   UserId=gpgpu10(10528) GroupId=gpgpu10(10561) MCS_label=N/A
   Priority=2 Nice=0 Account=udelar.fing.cursos QOS=besteffort_gpu
   JobState=PENDING Reason=Priority Dependency=(null)
   Requeue=1 Restarts=0 BatchFlag=1 Reboot=0 ExitCode=0:0
   RunTime=00:00:00 TimeLimit=00:01:00 TimeMin=N/A
   SubmitTime=2022-06-03T23:28:23 EligibleTime=2022-06-03T23:28:23
   AccrueTime=2022-06-03T23:28:23
   StartTime=2022-06-05T20:39:20 EndTime=2022-06-05T20:40:20 Deadline=N/A
   PreemptTime=None SuspendTime=None SecsPreSuspend=0
   LastSchedEval=2022-06-04T01:24:39
   Partition=besteffort AllocNode:Sid=login:4853
   ReqNodeList=(null) ExcNodeList=(null)
   NodeList=(null)
   NumNodes=1 NumCPUs=1 NumTasks=1 CPUs/Task=1 ReqB:S:C:T=0:0:*:*
   TRES=cpu=1,mem=4G,node=1,billing=1,gres/gpu=1
   Socks/Node=* NtasksPerN:B:S:C=0:0:*:* CoreSpec=*
   MinCPUsNode=1 MinMemoryNode=4G MinTmpDiskNode=0
   Features=(null) DelayBoot=00:00:00
   OverSubscribe=OK Contiguous=0 Licenses=(null) Network=(null)
   Command=/clusteruy/home/gpgpu10/practico4/launch_single.sh make clean run ARGS=3
   WorkDir=/clusteruy/home/gpgpu10/practico4
   StdErr=/clusteruy/home/gpgpu10/practico4/salida.out
   StdIn=/dev/null
   StdOut=/clusteruy/home/gpgpu10/practico4/salida.out
   Power=
   TresPerNode=gpu:1

Por las dudas le voy a escribir a contacto@cluster.uy pero no se si me atenderán el fin de semana así que cualquier cosa que puedan hacer de su lado estaría genial.

Muchas gracias!



En respuesta a Juan Ramirez

Re: [ClusterUY] Jobs no se ejecutan

de Leonardo Fallini Romero -
Hola, a mi me pasa lo mismo.

Por mientras estoy utilizando Google Colab, que permite ejecutar código CUDA.
Para eso, podes crearte un python notebook nuevo y dentro del Menú Runtime -> Change runtime type seleccionas "GPU" como acelerador de hardware.
Despues subís tu archivo .cu al notebook y agregas un bloque de código con lo siguiente:

!nvcc --version
!nvcc -lineinfo practico4.cu -o practico4
!nvprof ./practico4

A mi me ha funcionado bastante bien, capaz no es lo mejor para medir los tiempos pero para compilar y ejecutar el código funciona.
Espero que te sirva!

Saludos
En respuesta a Leonardo Fallini Romero

Re: [ClusterUY] Jobs no se ejecutan

de Juan Ramirez -
Buenas!

Sabés que yo había probado esa alternativa pero me tocó un ambiente con compute capability > 7.5, que no permite sacar las métricas (que es lo que más me interesaba en realidad). Es el mismo problema que tengo con la tarjeta de mi laptop asi que por tema tiempos pruebo local nomás.

Ahora, si te funcionó, significa que tienen ambientes con placas mas viejas, voy a probar cambiar de ambiente varias veces a ver si tengo suerte (en caso positivo comento por acá después).

Saludos
En respuesta a Juan Ramirez

Re: [ClusterUY] Jobs no se ejecutan

de Ernesto Dufrechou -
Hola, acabo de probar en el cluster y puedo ejecutar trabajos normalmente en besteffort.
Por favor comprueben otra vez y si siguen teniendo problemas hacemos la consulta al staff.

El script que usé es:
#!/bin/bash
#SBATCH --job-name=mitrabajo
#SBATCH --ntasks=1
#SBATCH --mem=512
#SBATCH --time=00:01:00
#SBATCH --partition=besteffort
#SBATCH --qos=besteffort_gpu
#SBATCH --gres=gpu:1
#SBATCH --mail-user=mi@correo
#SBATCH -o salida.out

export PATH=$PATH:/usr/local/cuda/bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/lib64

$1 $2 $3 $4 $5 $6 $7 $8 $9