Redes Neuronales para Lenguaje Natural, 2023

---
# Laboratorio 1

En este laboratorio construiremos detectores de humor (chistes), con el objetivo de comparar distintas técnicas de representación de los textos.

El mínimo requerido para la aprobación de este laboratorio es completar las partes 1, 2 y 4. La parte 3 es opcional, y puede realizarse para obtener mayor puntaje en el laboratorio.

Versión 2 del notebook: Se modifica la forma en que se carga el dataset, ahora los obtiene de eva. Hay que estar logueado a eva cuando se descargan los datos.

**Entrega: miércoles 11 de octubre**

**Formato: notebook de Python (.ipynb)**

**No olvidar mantener todas las salidas de cada región de código en el notebook!**

---



Comenzamos con algunos imports.

In [None]:
import torch
import gensim
import numpy as np
import pandas as pd
from sklearn.metrics import precision_recall_fscore_support, accuracy_score

Descargamos los datos de la competencia HAHA 2021

In [None]:
! wget https://eva.fing.edu.uy/mod/resource/view.php?id=196661 -O haha_2021.zip
! unzip haha_2021.zip

Cargamos las tres particiones de datos de la competencia, e imprimimos algunas muestras de los datos.

Este dataset está compuesto por tweets, y para cada tweet se cuenta con información de si es humor o no (si es un chiste), y otros datos acerca de qué tan gracioso es, cuál es el mecanismo por el que transmite humor, y sobre qué clases de cosas está haciendo humor.

In [None]:
train_df = pd.read_csv('./haha_2021_train.csv')
dev_df = pd.read_csv('./haha_2021_dev_gold.csv')
test_df = pd.read_csv('./haha_2021_test_gold.csv')
train_df.sample(5)

En este laboratorio utilizaremos solamente el texto como entrada (columna "text"), y el valor a predecir será si el tweet es un chiste o no (columna "is_humor"). Por lo tanto, nos quedamos solamente con esas dos columnas.

Imprimimos dos textos de ejemplo y sus categorías, y luego imprimimos la cantidad de ejemplos de la clase negativa y positiva en las tres particiones. Notar que las particiones de **train** y **dev** están un poco desbalanceadas hacia la categoría negativa, mientras que la partición de **test** está completamente balanceada.

In [None]:
train_text = train_df.loc[:,'text']
dev_text = dev_df.loc[:,'text']
test_text = test_df.loc[:,'text']

train_labels = train_df.loc[:,'is_humor']
dev_labels = dev_df.loc[:,'is_humor']
test_labels = test_df.loc[:,'is_humor']

print(train_text[181])
print(train_labels[181])

print(train_text[207])
print(train_labels[207])

print(np.bincount(train_labels))
print(np.bincount(dev_labels))
print(np.bincount(test_labels))


## Parte 1:
Utilizando pytorch, construir un clasificador tipo Multi-Layered Perceptron (MLP) que clasifique los tweets según si son humorísticos o no.

En esta parte, se debe realizar una representación tipo bag-of-words (BOW) para los tweets, la cual se utilizará como entrada de la red.

Puede probar realizar diferentes alternativas dentro de la representación BOW, por ejemplo considerar o no mayúsculas y minúsculas, descartar palabras con listas de stop words, o usar N-gramas de orden mayor en vez de palabras simples.

**Sugerencias:**
* Utilizar la clase CountVectorizer de sklearn
* Limitar el número máximo de features para no quedarse sin memoria

In [None]:
# su código aquí


Evalúe el mejor clasificador encontrado en esta parte sobre el corpus de **dev**, imprimiendo la métrica accuracy, y las métricas precision, recall y F1 para la clase humor (valor 1).

In [None]:
# su código aquí


## Parte 2:
Utilizando pytorch, construir un clasificador tipo Multi-Layered Perceptron (MLP) que clasifique los tweets según si son humorísticos o no.

En esta parte, se debe realizar una representación tipo centroide de word embeddings para los tweets, la cual se utilizará como entrada de la red.

Puede probar realizar diferentes alternativas dentro de la representación con word embedddings, por ejemplo considerar o no mayúsculas y minúsculas, o descartar palabras con listas de stop words.

**Sugerencias:**
* Puede utilizar los vectores de SBWC que ya utilizamos en el ejercicio de embeddings
* O puede bajar alguna otra colección de embeddings, pero no entrene sus propios embeddings!


In [None]:
# su código aquí


Evalúe el mejor clasificador encontrado en esta parte sobre el corpus de **dev**, imprimiendo la métrica accuracy, y las métricas precision, recall y F1 para la clase humor (valor 1).

In [None]:
# su código aquí


## Parte 3 (opcional):
Elija uno de los clasificadores anteriores y realice una búsqueda automatizada de hiperparámetros del modelo. Por ejemplo, puede utilizar una búsqueda en grilla completa o una búsqueda aleatoria, eligiendo diferente cantidad de capas, número unidades por capa, funciones de activación, y valores de learning rate. Intente encontrar el mejor clasificador posible, comparándolos sobre el corpus de **dev**.

In [None]:
# su código aquí


Evalúe el mejor clasificador encontrado en esta parte sobre el corpus de **dev**, imprimiendo la métrica accuracy, y las métricas precision, recall y F1 para la clase humor (valor 1).

In [None]:
# su código aquí


## Parte 4:
Elija el mejor clasificador de todos los construidos en las partes anteriores, comparándolos utilizando la medida F1 sobre la clase humor, y evalúelo sobre el corpus de **test**, imprimiendo la métrica accuracy, y las métricas precision, recall y F1 para la clase humor.

In [None]:
# su código aquí


Ahora conteste las siguientes preguntas sobre el mejor clasificador encontrado:

1. ¿Cómo es la entrada de la red (BOW, embeddings, y con qué características)?
2. ¿Cuál es la forma del modelo? Indique cantidad de capas, unidades, y funciones de activación. Puede usar el método print() sobre el modelo para imprimir la forma del modelo.
3. ¿De qué manera lo encontró los parámetros para su mejor clasificador?

*( sus respuestas aquí)*
