DLvis: Entregable 3 2024

Perfilado de sección

Entregable 3 2024

Cierre: domingo, 1 de diciembre de 2024, 23:59

Basado en Assignment 3 de Stanford cs231n.

Contenido

Q1: Subtitulado de imágenes con Vanilla RNNs (30 puntos)
Q2: Subtitulado de imágenes con Transformers (40 puntos)
Q3: Visualización de Redes: Mapas de Saliencia, Visualización de Clases, e Imágenes Engañosas (30 puntos)
Q4: Redes Adversarias Generativas (GANs) (Opcional, 10 puntos)
Q5: Aprendizaje Auto-Supervisado para clasificación de imágenes (Opcional, 20 puntos)
Entrega de archivos

Objetivos

En esta tarea, implementará redes de lenguaje y las aplicará a subtítulos de imágenes en el conjunto de datos COCO. Luego, podrá entrenar una red adversa generativa para generar imágenes que se parezcan a las que se encuentran en el conjunto de datos de entrenamiento. Finalmente, podrá trabajar sobre el aprendizaje auto-supervisado para aprender automáticamente las representaciones visuales de un conjunto de datos sin etiquetar.

Los objetivos del entregable son los siguientes:

Comprender e implementar redes RNN y Transformer. Combinarlos con las redes CNN para el subtitulado de imágenes.
Explorar varias aplicaciones de gradientes de imágenes, incluyendo mapas de saliencia, imágenes engañosas y visualización de clases.
Entender como entrenar e implementar Redes Generativas Adversarias (GAN) para producir imágenes similares a las muestras de un dataset.
Comprender cómo aprovechar las técnicas de aprendizaje auto-supervisado para ayudar con las tareas de clasificación de imágenes.

Modalidad de trabajo

Completar cada notebook siguiendo el orden especificado más abajo. Leer con atención la propuesta de cada uno y las recomendaciones que se sugieren. Las preguntas están escritas en inglés pero se aceptan respuestas en español.

Se utilizará PyTorch para la mayoría de esta tarea.

Q1: Subtitulado de imágenes con Vanilla RNNs (30 puntos)

El notebook RNN_Captioning.ipynb te guiará a través de la implementación de un sistema de subtitulado de imágenes en MS-COCO usando redes recurrentes simples.

Q2: Subtitulado de imágenes con Transformers (40 puntos)

El notebook Transformer_Captioning.ipynb lo guiará a través de la implementación de un modelo de Transformer y lo aplicará a los subtítulos de imágenes en COCO.

Q3: Visualizaciones de la red: Mapas de saliencia, Visualización de clases, e Imágenes engañosas (30 puntos)

El notebook Network_Visualization.ipynb introducirán el modelo SqueezeNet pre-entrenado, calcularán gradientes con respecto a las imágenes y los usarán para producir mapas de "saliencia" e imágenes engañosas.

Q4: Redes Adversarias Generativas (Opcional, 10 puntos)

En el notebook Generative_Adversarial_Networks.ipynb aprenderás a generar imágenes similares a las imágenes de un dataset de entrenamiento, y usarás esos modelos para mejorar el desempeño de un clasificador entrenado en un conjunto grande de datos no etiquetados. (Asegurarse de trabajar con GPU)

Q5: Aprendizaje Auto-Supervisado para clasificación de imágenes (Opcional, 20 puntos)

Con el notebook Self_Supervised_Learning.ipynb, aprenderá cómo aprovechar la capacitación previa auto-supervisada para obtener un mejor rendimiento en las tareas de clasificación de imágenes. (Asegurarse de trabajar con GPU)

Instrucciones de Entrega

Importante. Asegurarse que los notebooks entregados hayan sido ejecutados y que las salidas de las celdas y tus respuestas a las preguntas sean visibles.
Abrir y ejecutar el notebook collect_submission.ipynb. Este devolverá:

Un archivo
a3_code_submission
.zip con todos los archivos de código (.py e .ipynb).
Un archivo de todos los notebooks con sus celdas y las salidas de éstas.

Por último verificar que estos archivos estén correctos y subirlos a esta tarea.

assignment3.zip
7 de noviembre de 2024, 08:10