Redes Neuronales para Lenguaje Natural, 2024

---
# **Grandes Modelos de Lenguaje (LLMs) para clasificación de emoción en tweets**

En este notebook haremos experimentos utilizando clasificando emociones en tweets usando un LLM mediante técnicas de prompting.

**Importante:** Se debe ejecutar usando un runtime con GPU.

---



## Librerías, configuraciones y funciones auxiliares

Ejecutar las siguientes celdas para instalar las librerías necesarias, configurar formato de salida de Colab (word-wrap) y definir funciones necesarias más adelante para evaluación.

In [None]:
!pip install -U transformers
!pip install -U bitsandbytes

In [None]:
import torch
import numpy as np

DEVICE = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

EMOTIONS_ES = ["Alegría", "Tristeza", "Desagrado", "Ira", "Miedo", "Sorpresa", "Otras"]
EMOTIONS_ES_DICT = { e:i for (i,e) in enumerate(EMOTIONS_ES) }
EMOTIONS_EN = ["joy", "sadness", "disgust", "anger", "fear", "surprise", "others"]
EMOTIONS_EN_DICT = { e:i for (i,e) in enumerate(EMOTIONS_EN) }
EMOTIONS_ES_EN = { es:en for (es,en) in zip(EMOTIONS_ES,EMOTIONS_EN) }
EMOTIONS_EN_ES = { en:es for (en,es) in zip(EMOTIONS_EN,EMOTIONS_ES) }

In [None]:
# Configuración de formato de salida en colab
from IPython.display import HTML, display

def set_css():
 display(HTML('''
 
 '''))
get_ipython().events.register('pre_run_cell', set_css)

In [None]:
# Funciones auxiliares
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay, f1_score, precision_recall_fscore_support

def plot_confusion_matrix(reference, prediction, labels):
 cm = confusion_matrix(reference, prediction, labels=labels)
 disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=labels)
 disp.plot()
 plt.show()

def print_fscore(reference, prediction, labels):
 print("Macro:", f1_score(reference, prediction, average='macro'))
 scores = f1_score(reference, prediction, average=None, labels=labels)
 for i in range(len(labels)):
 print(f"Clase {labels[i]}:", + scores[i])


## Carga de la información de los tweets

Los datos que utilizaremos en este ejercicio son los de la competencia EmoEvalEs@IberLEF2021 (https://competitions.codalab.org/competitions/28682). En esta competencia se propone asignar la emoción principal de un tweet a una de 7 categorías:
* enojo / anger
* desagrado / disgust
* miedo / fear
* alegría / joy
* tristeza / sadness
* sorpresa / surprise
* otras / others

Descargaremos y utilizaremos las particiones de train y de dev, ya que la de test no cuenta con las etiquetas reales de la emoción esperada. Recordar que en un ejemplo real deberíamos partir el corpus de train para obtener una nueva partición de dev, o utilizar otra técnica como validación cruzada.

El corpus tiene más información, pero en este caso solo cargaremos cada ejemplo como . Se imprime una entrada aleatoria de cada partición para probar que se hayan cargado correctamente.

In [None]:
! wget https://www.fing.edu.uy/owncloud/index.php/s/cgbdFYX2te4zLrA/download/emoeval_data.zip
! unzip emoeval_data.zip

In [None]:
import csv
import random

def load_corpus(corpusFile):
 with open(corpusFile, newline='') as corpus_csv:
 reader = csv.reader(corpus_csv, delimiter=',')
 titles = next(reader)
 corpus = [[x[2],EMOTIONS_EN_ES[x[4]]] for x in reader]
 return corpus

corpus_train = load_corpus('train.csv')
corpus_test = load_corpus('dev.csv')

print(random.choice(corpus_train))
print(random.choice(corpus_test))

Debido a que no contamos con las etiquetas reales de test, utilizaremos como partición de test la que originalmente se usó como dev en la competencia. Este conjunto que usaremos para evaluar las diferentes técnicas tiene **884 ejemplos**:

In [None]:
print("Tamaño de corpus de test:", len(corpus_test))

Debido a que los grandes modelos de lenguaje requieren del uso de mucho cómputo, cada ejecución suele llevar una cantidad de tiempo no despreciable. Para que la evaluación lleve un tiempo razonable, utilizaremos **100 ejemplos aleatorios**.

Complete la siguiente celda para reempazar `corpus_te` con una versión reducida de 100 ejemplos.



In [None]:
corpus_test = ... # Completar para obtener 100 ejemplos aleatorios del corpus de test

print("Nuevo tamaño de corpus de test:", len(corpus_test))

for e in EMOTIONS_ES:
 print(e,len(list(t for t in corpus_test if t[1] == e)))

## Configuración de LLM

Utilizaremos variantes del modelo **Llama 3.2** de Meta a través de la plataforma [HuggingFace](https://huggingface.co/). Para poder usar este modelo en HuggingFace es necesario seguir los siguientes pasos:

- Crearse una cuenta de HuggingFace (https://huggingface.co/)
- Aceptar los términos para usar los modelos Llama-3.2 en HuggingFace, que aparecen en el siguiente enlace: https://huggingface.co/meta-llama/Llama-3.2-1B-Instruct
- Crear un token de HuggingFace siguiendo el siguiente enlace: https://huggingface.co/settings/tokens
- Ejecutar la siguiente celda e ingresar el token creado.

In [None]:
# Ejecutar para conectarse a HuggingFace
from huggingface_hub import notebook_login

notebook_login()

Para cargar el LLM, son necesarios dos componentes: el **tokenizer**, encargado de dividir las secuencias de texto en partes más pequeñas llamadas tokens que el modelo es capaz de procesar, y el **modelo**, que es la red neuronal profunda (*transformer*) con 7 mil millones de parámetros.

Comenzaremos cargando el tokenizer ejecutando la siguiente celda.



In [None]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-3.2-1B-Instruct")

A continuación veremos el proceso de tokenización realizado por el tokenizer para un tweet aleatorio del conjunto de train.

El resultado es una lista de identificadores, donde cada identificador corresponde a un token.

Complete la siguiente celda.

La documentación para trabajar con el tokenizer está disponible en: https://huggingface.co/transformers/v2.11.0/main_classes/tokenizer.html. En particular, se recomienda utilizar la función `convert_ids_to_tokens` para obtener los tokens a partir de la lista de ids.

In [None]:
import random

tweet = ... # Elegir un tuit aleatorio
tokens = ... # Aplicar tokenizer al tuit
token_ids = ... # Convertir los tokens a ids

print("Tweet:", tweet)
print("\nTokens:", tokens)
print("\nIdentificadores de tokens:", token_ids)


**Responda la siguiente pregunta:** ¿Qué puede estar representando el símbolo `Ġ` que aparece al principio de algunos tokens?

**Respuesta:**

A continuación, imprima el tamaño del vocabulario. Esto es, la cantidad total de tokens.

Para esto, se puede usar la función `get_vocab` del tokenizer, y `len` para obtener el tamaño.

In [None]:
# Imprimir tamaño del vocabulario
print("Tamaño del vocabulario",len(tokenizer.get_vocab()))


A continuación cargaremos el modelo. La ejecución de la siguiente celda puede llevar algunos minutos, ya que se descargarán los parámetros del modelo y se cargaran en la memoria de la GPU.

In [None]:
from transformers import AutoModelForCausalLM, BitsAndBytesConfig

# Configuración de cuantización a 4 bits (para mejorar eficiencia)
bnb_config = BitsAndBytesConfig(
 load_in_4bit=True,
 bnb_4bit_quant_type="nf4",
 bnb_4bit_compute_dtype=torch.bfloat16
 )

model = AutoModelForCausalLM.from_pretrained(
 "meta-llama/Llama-3.2-1B-Instruct",
 quantization_config=bnb_config,
 device_map="auto",
 )

La siguiente celda muestra la arquitectura del modelo.

In [None]:
print(model)

Podemos observar que el modelo consiste de las siguientes partes:

- **embed_tokens:** La primer capa, encargada de asociar cada token a un embedding (vector de tamaño 2048).

- **LlamaDecoderLayer:** 16 capas iguales compuestas por

 - **self_attn** (self-attention): Mecanismo atencional, caractéristico de la arquitecura *transformer*.
 - **mlp** (mutilayer perceptron): Capa feed-forward, que procesa la salida del self-attention.
 - Luego se aplican normalizaciones a la salida.

- **lm_head**: Aplica una transformación lineal a la salida de la última capa, y retorna un vector de tamaño 128256.

**Responda las siguientes preguntas:**

1. ¿Cuál es la función de activación que se utiliza en los MLP?
2. Se puede observar que el tamaño de la salida de la última capa es de 128256. ¿Por qué tiene ese tamaño? ¿A qué se corresponde?

**Respuestas:**

## Generación de texto usando el LLM

En la siguiente celda se define la función que utilizaremos para generar texto con el LLM.

Se puede explorar los atributos de la clase GenerationConfig para ver más opciones que se pueden utilizar al momento de la generación:
https://huggingface.co/docs/transformers/en/main_classes/text_generation

In [None]:
# Generar respuesta
from transformers import GenerationConfig, pipeline

tokenizer.pad_token_id = model.config.eos_token_id # Para generación abierta

def get_response(prompts, model, temp=0.0, max_tok=500):

 # Configuración de temperatura
 if temp == 0:
 generation_config = GenerationConfig(
 do_sample=False,
 num_beams=1
 )
 else:
 generation_config = GenerationConfig(
 do_sample=True,
 temperature=temp
 )

 # Inicializar pipeline para generación de texto
 pipe = pipeline(
 "text-generation",
 model=model,
 config=generation_config,
 tokenizer=tokenizer,
 pad_token_id=tokenizer.eos_token_id
 )

 # Generar texto para cada prompt en paralelo
 output = pipe(
 prompts,
 return_full_text=False,
 max_new_tokens=max_tok
 )

 return output[0]['generated_text']

Probamos la función anterior con una prompt de prueba. El modelo deberá completar la frase.

In [None]:
prompt = "Uruguay es un país"
output = get_response(prompt, model, max_tok=100)

print(prompt + output)

El modelo que estamos utilizando es un modelo de tipo "instruct". Esto significa que pasó por un proceso de fine-tuning para adaptarlo a las interacciones tipo chat.

Para esto, los modelos son entrenados con un formato de prompt específico (simulando un chat). Para obtener los mejores resultados es importante respetar este formato.

El tokenizer implementa la función `apply_chat_template`, que dado una lista de mensajes aplica el formato de prompt adecuado.

Cada mensaje de la lista es un diccionario que tiene un rol y el contenido del mensaje. Hay tres roles posibles:

- **system:** Este es un único mensaje que siempre debe ir primero. Se utiliza para dar instrucciones generales al modelo de lenguaje.

- **user:** Los mensajes de tipo usuario corresponden a los mensajes ingresados por el humano en una conversación con el modelo.

- **assistant:** Los mensajes de tipo asistente corresponden a los mensajes generados por el modelo de lenguaje.

El modelo de lenguaje es *stateless*. Esto significa que no mantiene el estado de la conversación. Es por eso que se debe mantener un diccionario con los mensajes intercambiados hasta el momento.

La siguiente función recibe una lista de mensajes y retorna un string que corresponde a la prompt, que luego será utilizada para generar una respuesta.

In [None]:
def create_prompt(messages):
 return tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)

Veamos un ejemplo de prompt que sigue el formato adecuado, dada una lista de mensajes.

In [None]:
messages = [
 {
 "role": "system",
 "content": "Eres un asistente servicial, respetuoso y honesto."
 },
 {
 "role": "user",
 "content": "Hola, ¿cómo estás?"
 },
 {
 "role": "assistant",
 "content": "Hola! Estoy dispuesto a ayudarte."
 },
 {
 "role": "user",
 "content": "¿Qué me puedes decir de Uruguay?"
 }
 ]

prompt = create_prompt(messages)
print(prompt)

In [None]:
print(get_response(prompt,model,max_tok=100))

## Experimento 1: Prompting con instrucciones

Este experimento consiste en **diseñar una prompt de sistema** adecuada para resolver la tarea. El objetivo es dar instrucciones al modelo del comportamiento esperado en el mensaje con rol de sistema. Luego, el tweet a clasificar será un mensaje de usuario, y se espera que el modelo retorne la etiqueta en el siguiente mensaje.

**Aspectos importantes a tener en cuenta:**

- Es importante dar el mayor contexto posible al modelo, explicando la tarea y las etiquetas. Recordar que el modelo no tiene conocimiento previo de la tarea que queremos que resuelva.
- El objetivo es que el primer token generado por el modelo sea una de las tres etiquetas (P, N, NONE), ya que luego generaremos un solo token. Es **fundamental** hacer esto explícito en la prompt, indicando que la respuesta esperada debe comenzar con la etiqueta.

In [None]:
# Definición de prompt
def simple_prompt(tweet):
 messages = [
 {
 "role": "system",
 "content": ... # Completar con la prompt de sistema diseñada
 },
 {
 "role": "user",
 "content": tweet
 }
 ]
 return create_prompt(messages)

A continuación veremos la prompt generada para algún tweet del corpus de train, y generamos la respuesta con el LLM para verificar que el comportamiento es el esperado.

In [None]:
prompt = simple_prompt(random.choice(corpus_train)[0])
output = get_response(prompt, model, max_tok=20)

print("PROMPT:\n")
print(prompt)
print("\nRESPUESTA:\n")
print(output)

Se puede ver que, a pesar de que podemos refinar el prompt, el modelo habitualmente dirá más palabras que las esperadas. Escribir un método que intente obtener la emoción predicha a partir de la respueta.

In [None]:
def get_emotion_simple_prompt(tweet,model):
 prompt = simple_prompt(tweet)
 output = get_response(prompt, model, max_tok=20).lower()
 return ... # ver si el string correspondiente a la emoción está en la salida obtenida

tweet = random.choice(corpus_train)[0]
print(tweet)
print(get_emotion_simple_prompt(tweet,model))

Obtenemos métricas sobre todo el corpus de test para el caso zero-shot:

In [None]:
reference = []
predictions = []
for t,e in corpus_test:
 p = get_emotion_simple_prompt(t,model)
 reference.append(e)
 predictions.append(p)

print_fscore(reference,predictions,EMOTIONS_ES)
plot_confusion_matrix(reference,predictions,EMOTIONS_ES)

Como lo que hace el modelo de lenguaje es devolvernos la probabilidad del siguiente token, podemos utilizar otra técnica para predecir la emoción: miramos el siguiente token predicho y vemos a cuál de las posibles emociones se le asigna más probabilidad.


In [None]:
# Obtener el primer token de cada emoción
emotion_ids = tokenizer(EMOTIONS_ES, add_special_tokens=False).input_ids
emotion_tokens = [e[0] for e in emotion_ids]
emotion_tokens = torch.tensor(emotion_tokens)
print(list((e,tokenizer.decode(e)) for e in emotion_tokens))

def get_token_probabilities(prompt, model_llm):
 '''
 Dada una prompt, obtiene las probabilidades de los tokens de las emociones.

 Args:
 prompt (str): La prompt para el modelo de lenguaje.

 Returns:
 np.array: Un array con las probabilidades de los tokens de las emociones.
 '''
 inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)

 with torch.no_grad():
 outputs = model_llm(**inputs)

 # Obtener las probabilidades de los tokens
 next_token_logits = outputs.logits[:, -1, :]
 next_token_probs = torch.softmax(next_token_logits, dim=-1)

 # Obtener las probabilidades de los tokens de las emociones
 emotion_probs = next_token_probs[0, emotion_tokens].cpu().numpy()

 # Normalizar las probabilidades
 emotion_probs /= emotion_probs.sum()

 return emotion_probs


Completar el código para obtener la emoción a partir de las probabilidades del primer token generado en la salida.

In [None]:
import numpy as np

def get_emotion_first_token(tweet, model):
 prompt = simple_prompt(tweet)
 return ... # la emoción correspondiente al token más probable de los que refieren a emociones

tweet = random.choice(corpus_train)[0]
print(tweet)
print(get_emotion_first_token(tweet, model))


Obtenemos métricas sobre todo el corpus de test para el caso zero-shot con el primer token generado:

In [None]:
reference = []
predictions = []
for t,e in corpus_test:
 p = get_emotion_first_token(t,model)
 reference.append(e)
 predictions.append(p)

print_fscore(reference,predictions,EMOTIONS_ES)

plot_confusion_matrix(reference,predictions,EMOTIONS_ES)

## Experimento 2: Few-Shot prompting

El experimento anterior es la manera más sencilla de utilizar el LLM, simplemente indicando la tarea a resolver. Una desventaja de este método es que no utiliza la información disponible en el conjunto de entrenamiento.

Una alternativa que suele mejorar los resultados es el método de **Few-Shot learning**. Few-Shot learning consiste en agregar algunos pocos ejemplos de la tarea resuelta en la prompt. Mediante los ejemplos (que se suman a las instrucciones), el modelo puede detectar patrones más fácilmente. Este método también se conoce como **In-Context Learning**, ya que, a diferencia de métodos como fine-tuning, se espera que el modelo aprenda a resolver una tarea nueva (para la que no fue entrenado) mediante ejemplos provistos en el contexto, sin modificaciones en sus parámetros.

El método utilizado en el experimento anterior se puede ver como el caso particular de Few-Shot donde $n = 0$. A este caso se le llama **Zero-Shot Learning**.

Para este experimento se debe completar la función `select_few_shot`, que debe retornar una lista con $n$ ejemplos elegidos con algún criterio del dataset pasado por parámetro. Cada ejemplo debe ser un diccionario con las claves `tweet` y `label`.

Luego, estos $n$ ejemplos serán agregados a la lista de mensajes como (falsos) mensajes anteriores entre el usuario y el asistente.

**Aspectos importantes a tener en cuenta:**

- Se puede diseñar cualquier método para seleccionar los ejemplos. Algunos métodos posibles son:
 - Elegir los ejemplos de forma aleatoria.
 - Elegir los ejemplos de forma tal que haya la misma representación para cada clase.
 - Mirar el conjunto de entrenamiento y elegir a mano ejemplos que resulten característicos de la etiqueta que representan.
 - Etc.
- Nuevamente es necesario definir el prompt de sistema, al igual que en el experimento anterior. No es necesario diseñar una prompt de sistema nueva, se puede usar la misma que en experimento anterior.


In [None]:
# Definición de prompt
import random

def select_few_shot(dataset, n=5):
 # Crear una lista con n ejemplos seleccionados del dataset, donde cada elemento es un diccionario con claves "tweet", "label"
 return ... # la lista creada

def few_shot_prompt(tweet):
 messages = [
 {
 "role": "system",
 "content": ... # Completar con la prompt de sistema diseñada
 }
 ]

 few_shot_examples = select_few_shot(corpus_train,10)
 for example in few_shot_examples:
 messages.append({"role": "user", "content": example["tweet"]})
 messages.append({"role": "assistant", "content": example["label"]})

 messages.append({"role": "user", "content": tweet})

 return create_prompt(messages)

A continuación veremos la prompt generada para el primer tweet del corpus de test, y generamos la respuesta con el LLM para verificar que el comportamiento es el esperado. Complete la siguiente celda.

In [None]:
prompt = ...
output = ...

print("PROMPT:\n")
print(prompt)
print("\nRESPUESTA:\n")
print(output)

Al igual que en el experimento 1, el modelo podrá generar palabras de más. Obtener la emoción predicha a partir de la respuesta.

In [None]:
def get_emotion_few_shot(tweet,model):
 prompt = few_shot_prompt(tweet)
 output = get_response(prompt, model, max_tok=20).lower()
 return ... # ver si el string correspondiente a la emoción está en la salida obtenida

tweet = random.choice(corpus_train)[0]
print(tweet)
print(get_emotion_few_shot(tweet,model))


Obtenemos métricas sobre todo el corpus de test para el caso few-shot:

In [None]:
reference = []
predictions = []
for t,e in corpus_test:
 p = get_emotion_few_shot(t,model)
 reference.append(e)
 predictions.append(p)

print_fscore(reference,predictions,EMOTIONS_ES)

plot_confusion_matrix(reference,predictions,EMOTIONS_ES)

Podemos volver a probar el método de obtener la emoción más probable del primer token, pero esta vez con few shot.

In [None]:
import numpy as np

def get_emotion_first_token_few_show(tweet,model):
 prompt = few_shot_prompt(tweet)
 return ... # la emoción correspondiente al token más probable de los que refieren a emociones

tweet = random.choice(corpus_train)[0]
print(tweet)
print(get_emotion_first_token_few_show(tweet,model))


Obtenemos métricas sobre todo el corpus de test para el caso few-shot con el primer token generado:

In [None]:
reference = []
predictions = []
for t,e in corpus_test:
 p = get_emotion_first_token_few_show(t,model)
 reference.append(e)
 predictions.append(p)

print_fscore(reference,predictions,EMOTIONS_ES)

plot_confusion_matrix(reference,predictions,EMOTIONS_ES)

## (Opcional) Experimento 3: Modelo con fine-tuning

Los resultados hasta el momento han sido muy bajos, pero notar que son muchas categorías posibles, y estamos trabajando con modelos de tamaño muy pequeño que además no están ajustados para esta tarea en particular. ¿Qué tan bien funcionaría un modelo ajustado?

En este experimento utilizaremos un modelo que está basado en Llama-3.2-1B pero finetuneado con los datos de train de EmoEvalEs. Este modelo se mostró como ejemplo en el stand del Grupo PLN-InCo en Ingeniería de Muestra 2024.

La diferencia es que este modelo fue finetuneado utilizando estas etiquetas:
* Alegría
* Tristeza
* Ira
* Miedo
* Sorpresa
* Neutral

Notar que la etiqueta "Desagrado" no se encuentra en los ejemplos usamos para finetuning, y se cambia la etiqueta "Otras" por "Neutral".

El prompt también tiene una modicación, ya que en el finetuning se utilizó el formato `### Texto:\n{tweet}\n\n### Emoción:\n` como entrada.

In [None]:
from transformers import AutoTokenizer, AutoModelForCausalLM

model_ft = AutoModelForCausalLM.from_pretrained("nsuruguay05/Llama-3.2-1B-IdM2024", device_map="auto")

In [None]:
import numpy as np

def get_emotion_finetuned_first_token(tweet,model):
 prompt = f"### Texto:\n{tweet}\n\n### Emoción:\n"
 return ... # la emoción correspondiente al token más probable de los que refieren a emociones

tweet = random.choice(corpus_train)[0]
print(tweet)
print(get_emotion_finetuned_first_token(tweet,model_ft))


Obtenemos métricas sobre todo el corpus de test para el caso finetuneado con el primer token generado:

In [None]:
reference = []
predictions = []
for t,e in corpus_test:
 p = get_emotion_finetuned_first_token(t,model_ft)
 reference.append(e)
 predictions.append(p)

print_fscore(reference,predictions,EMOTIONS_ES)

plot_confusion_matrix(reference,predictions,EMOTIONS_ES)

## Tabla de resultados

Complete la siguiente tabla con los resultados obtenidos en cada experimento.

|Experimento|F1 Avg|F1 Clase Alegría|F1 Clase Tristeza|F1 Clase Otras|
|:---------:|:--------:|:--------:|:-----------:|:----:|
|Zero-Shot |||||
|Zero-Shot (first token)|||||
|Few-Shot |||||
|Few-Shot (first token)|||||
|Fine-Tuned (first token)|||||
