Entregable 3 2024
Entregable 3 2024
Basado en Assignment 3 de Stanford cs231n.
Contenido
- Q1: Subtitulado de imágenes con Vanilla RNNs (30 puntos)
- Q2: Subtitulado de imágenes con Transformers (40 puntos)
- Q3: Visualización de Redes: Mapas de Saliencia, Visualización de Clases, e Imágenes Engañosas (30 puntos)
- Q4: Redes Adversarias Generativas (GANs) (Opcional, 10 puntos)
- Q5: Aprendizaje Auto-Supervisado para clasificación de imágenes (Opcional, 20 puntos)
- Entrega de archivos
Objetivos
En esta tarea, implementará redes de lenguaje y las aplicará a subtítulos de imágenes en el conjunto de datos COCO. Luego, podrá entrenar una red adversa generativa para generar imágenes que se parezcan a las que se encuentran en el conjunto de datos de entrenamiento. Finalmente, podrá trabajar sobre el aprendizaje auto-supervisado para aprender automáticamente las representaciones visuales de un conjunto de datos sin etiquetar.
Los objetivos del entregable son los siguientes:
Comprender e implementar redes RNN y Transformer. Combinarlos con las redes CNN para el subtitulado de imágenes.
Explorar varias aplicaciones de gradientes de imágenes, incluyendo mapas de saliencia, imágenes engañosas y visualización de clases.
Entender como entrenar e implementar Redes Generativas Adversarias (GAN) para producir imágenes similares a las muestras de un dataset.
- Comprender cómo aprovechar las técnicas de aprendizaje auto-supervisado para ayudar con las tareas de clasificación de imágenes.
Modalidad de trabajo
Completar cada notebook siguiendo el orden especificado más abajo. Leer con atención la propuesta de cada uno y las recomendaciones que se sugieren. Las preguntas están escritas en inglés pero se aceptan respuestas en español.
Se utilizará PyTorch para la mayoría de esta tarea.
Q1: Subtitulado de imágenes con Vanilla RNNs (30 puntos)
El notebook RNN_Captioning.ipynb te guiará a través de la implementación de un sistema de subtitulado de imágenes en MS-COCO usando redes recurrentes simples.
Q2: Subtitulado de imágenes con Transformers (40 puntos)
El notebook Transformer_Captioning.ipynb lo guiará a través de la implementación de un modelo de Transformer y lo aplicará a los subtítulos de imágenes en COCO.
Q3: Visualizaciones de la red: Mapas de saliencia, Visualización de clases, e Imágenes engañosas (30 puntos)
El notebook Network_Visualization.ipynb introducirán el modelo SqueezeNet pre-entrenado, calcularán gradientes con respecto a las imágenes y los usarán para producir mapas de "saliencia" e imágenes engañosas.
Q4: Redes Adversarias Generativas (Opcional, 10 puntos)
En el notebook Generative_Adversarial_Networks.ipynb aprenderás a generar imágenes similares a las imágenes de un dataset de entrenamiento, y usarás esos modelos para mejorar el desempeño de un clasificador entrenado en un conjunto grande de datos no etiquetados. (Asegurarse de trabajar con GPU)
Q5: Aprendizaje Auto-Supervisado para clasificación de imágenes (Opcional, 20 puntos)
Con el notebook Self_Supervised_Learning.ipynb, aprenderá cómo aprovechar la capacitación previa auto-supervisada para obtener un mejor rendimiento en las tareas de clasificación de imágenes. (Asegurarse de trabajar con GPU)Instrucciones de Entrega
- Importante. Asegurarse que los notebooks entregados hayan sido ejecutados y que las salidas de las celdas y tus respuestas a las preguntas sean visibles.
- Abrir y ejecutar el notebook collect_submission.ipynb. Este devolverá:
- Un archivo a3_code_submission.zip con todos los archivos de código (.py e .ipynb).
- Un archivo de todos los notebooks con sus celdas y las salidas de éstas.
- Por último verificar que estos archivos estén correctos y subirlos a esta tarea.
- 7 de noviembre de 2024, 08:10