Aprendizaje Profundo para Visión Artificial
Diagrama de temas
-
-
Clase 20
- Modelos de difusión (8h15 - 9h15)
- Charla de José Lezama (Google Research, USA) (9h15 - 10h15)
- Título: Modelos generativos de imágenes y videos en la era de LLMs y modelos de difusión.
- Resumen: Visto el éxito de los grandes modelos de lenguaje (LLMs) para modelar el espacio del lenguaje natural, cabe preguntarse qué lecciones se pueden extraer para el modelado del dominio visual, es decir imágenes y videos. En esta charla veremos trabajos recientes en la intersección de estos mundos, donde se proponen modelos generativos de imágenes y videos basados en el modelado de secuencias discretas con transformers, y su relación con los modelos de difusión.
La clase es presencial. La charla de José la vamos a proyectar en clase. Para los que no puedan venir, el zoom es el mismo que usamos para las consultas de práctico:
https://salavirtual-udelar.zoom.us/j/88948440390?pwd=QWNjQXgzTUdjNFVrTjBUbmlsT2hEQT09
-
Cubriremos la primera parte del tutorial. En el link pueden encontrar las slides y el tutorial grabado en YouTube.
-
Notebook guiado para implementar y entrenar un denoising diffusion model.
-