**Redes Neuronales para Lenguaje Natural, 2023**

---
# **Análisis de sentimento con BERT (en español)**

En este *notebook* construiremos un sistema de análisis de sentimiento usando BERT. Los datos que utilizaremos son comentarios de películas de IMDB.

Este notebook está basado en el capítulo 16 del libro "Machine Learning with PyTorch and Scikit-Learn: Develop machine learning and deep learning models with Python" de Raschka, S., Liu, Y. H., Mirjalili, V., & Dzhulgakov, D. (2022).

---



Empezaremos por instalar la librería transformers.

In [None]:
!pip install transformers

Algunos imports que utilizaremos a lo largo de este notebook:

In [None]:
import time

import pandas as pd
import torch

import transformers
from transformers import DistilBertTokenizerFast
from transformers import DistilBertForSequenceClassification


Algunos ajustes que utilizaremos:

In [None]:
torch.backends.cudnn.deterministic = True
RANDOM_SEED = 248
torch.manual_seed(RANDOM_SEED)
DEVICE = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

In [None]:
DEVICE

## **Dataset**

Vamos a utilizar el *IMDb movie review dataset* (en español, versión reducida), ejecute el siguiente bloque para descargarlo:

In [None]:
! wget https://eva.fing.edu.uy/mod/resource/view.php?id=194796 -O senti-corpus.zip
! unzip senti-corpus.zip

In [None]:
import numpy as np
import pandas as pd
from collections import Counter
from sklearn.metrics import precision_recall_fscore_support, accuracy_score

train_df = pd.read_csv('./senti-train.tsv',header = None,sep='\\t')
dev_df = pd.read_csv('./senti-dev.tsv',header = None,sep='\\t')
test_df = pd.read_csv('./senti-test.tsv',header = None,sep='\\t')


Cargamos el archivo en memoria con pandas:

In [None]:
train_df.head()

Desplegamos la cantidad de filas y columnas de nuestros datos:

In [None]:
df.shape

## **Particiones Train/Val/Test**

Utilizamos las particiones train, val y test del dataset para realizar nuestros experimentos.

In [None]:
train_texts = train_df.iloc[:,0].values
train_labels = train_df.iloc[:,1].values

valid_texts = dev_df.iloc[:,0].values
valid_labels = dev_df.iloc[:,1].values

test_texts = test_df.iloc[:,0].values
test_labels = test_df.iloc[:,1].values

In [None]:
print(train_texts[0])
print(train_labels[0])

## **Tokenizamos**

Para utilizar un modelo pre-entrenado BERT es preciso tokenizar la entrada de la misma manera con la que el modelo fue pre-entrenado. Vamos a comenzar utilizando **DistilBERT** (https://huggingface.co/docs/transformers/model_doc/distilbert), en particular "distilbert-base-uncased" por lo tanto cargamos el tokenizer correspondiente:

In [None]:
tokenizer = DistilBertTokenizerFast.from_pretrained('dccuchile/distilbert-base-spanish-uncased')

Tokenizamos las particiones train, val y test.

In [None]:
train_encodings = tokenizer(list(train_texts), truncation=True, padding=True)
valid_encodings = tokenizer(list(valid_texts), truncation=True, padding=True)
test_encodings = tokenizer(list(test_texts), truncation=True, padding=True)

Resultado de la tokenización de un conjunto:

In [None]:
type(train_encodings)

Un elemento tokenizado:

In [None]:
train_encodings[0]

In [None]:
print(train_encodings[0].tokens)
print(train_encodings[0].tokens.index('[PAD]'))
print(train_encodings[0].attention_mask.index(0))

Observe algunos ejemplos y analice el contenido de cada campo (por dudas consulte https://huggingface.co/docs/tokenizers/api/encoding)

In [None]:
print(train_encodings[0].attention_mask)
print(train_encodings[0].special_tokens_mask)


**Pregunta:** ¿Qué objetivo cumple el campo *attention_mask*?

**Respuesta:** [Escriba su respuesta]

**Pregunta:** ¿Qué objetivo cumple el campo *special_tokens_mask*?

**Respuesta:** [Escriba su respuesta]



## **Dataset pytorch class y DataLoaders**

Instanciamos los datos tokenizados como un Dataset de pytorch.

In [None]:
class IMDbDataset(torch.utils.data.Dataset):
 def __init__(self, encodings, labels):
 self.encodings = encodings
 self.labels = labels

 def __getitem__(self, idx):
 item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
 item['labels'] = torch.tensor(self.labels[idx])
 return item

 def __len__(self):
 return len(self.labels)


train_dataset = IMDbDataset(train_encodings, train_labels)
valid_dataset = IMDbDataset(valid_encodings, valid_labels)
test_dataset = IMDbDataset(test_encodings, test_labels)


Instanciamos el DataLoader de cada partición:

In [None]:
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=16, shuffle=True)
valid_loader = torch.utils.data.DataLoader(valid_dataset, batch_size=16, shuffle=False)
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=16, shuffle=False)

## **Cargar y *fine-tuning* de un modelo BERT pre-entrenado**

Cargamos "distilbert-base-uncased":

In [None]:
model = DistilBertForSequenceClassification.from_pretrained('dccuchile/distilbert-base-spanish-uncased')
model.to(DEVICE)


Evaluaremos los modelos resultantes con la siguente función para calcular *accuracy*:

In [None]:
def compute_accuracy(model, data_loader, device):
 with torch.no_grad():
 correct_pred, num_examples = 0, 0

 for batch_idx, batch in enumerate(data_loader):

 ### Prepare data
 input_ids = batch['input_ids'].to(device)
 attention_mask = batch['attention_mask'].to(device)
 labels = batch['labels'].to(device)
 outputs = model(input_ids, attention_mask=attention_mask)
 logits = outputs['logits']
 predicted_labels = torch.argmax(logits, 1)
 num_examples += labels.size(0)
 correct_pred += (predicted_labels == labels).sum()

 return correct_pred.float()/num_examples * 100

In [None]:
compute_accuracy(model,test_loader,DEVICE)

Para realizar el fine-tuning del modelo pre-entrenado utilizamos el siguiente ciclo de entrenamiento:

In [None]:
NUM_EPOCHS = 5
optim = torch.optim.Adam(model.parameters(), lr=5e-6)


start_time = time.time()

for epoch in range(NUM_EPOCHS):

 model.train()

 for batch_idx, batch in enumerate(train_loader):

 ### Prepare data
 input_ids = batch['input_ids'].to(DEVICE)
 attention_mask = batch['attention_mask'].to(DEVICE)
 labels = batch['labels'].to(DEVICE)

 ### Forward
 outputs = model(input_ids, attention_mask=attention_mask, labels=labels)
 loss, logits = outputs['loss'], outputs['logits']

 ### Backward
 optim.zero_grad()
 loss.backward()
 optim.step()

 ### Logging
 if not batch_idx % 20:
 print (f'Epoch: {epoch+1:04d}/{NUM_EPOCHS:04d} | '
 f'Batch {batch_idx:04d}/{len(train_loader):04d} | '
 f'Loss: {loss:.4f}')

 model.eval()

 with torch.set_grad_enabled(False):
 print(f'Training accuracy: '
 f'{compute_accuracy(model, train_loader, DEVICE):.2f}%'
 f'\nValid accuracy: '
 f'{compute_accuracy(model, valid_loader, DEVICE):.2f}%')

 print(f'Time elapsed: {(time.time() - start_time)/60:.2f} min')

print(f'Total Training Time: {(time.time() - start_time)/60:.2f} min')


### **Evaluación del modelo**

Evaluamos en **test** el modelo resultante del fine-tuning:

In [None]:
print(f'Test accuracy: {compute_accuracy(model, test_loader, DEVICE):.2f}%')

# **Ejercicio**

Basándose en lo anterior, realice por lo menos **3** experimentos de la siguiente manera:

- Instancie un modelo **BERT pre-entrenado**
- Realice **fine-tuning** del modelo para clasificación en *IMDb movie review dataset*
- **Ajuste hiperparámetros** utilizando la partición de **validación**


Reporte el resultado en **test** del modelo que obtuvo los mejores resultados.

In [None]:
# Escriba su código a partir de aquí