**Redes Neuronales para Lenguaje Natural, 2023**

---
# **Laboratorio 2**





El objetivo de este laboratorio es experimentar con grandes modelos de lenguajes (*LLMs* por *Large Language Models*) para la construcción de sistemas de respuestas a preguntas extrayéndolas de un texto brindado como contexto (*extractive Question-Answering o extractive QA*). Debe utilizar *prompts* adecuados, técnicas de *prompting* y/o *fine-tuning* para realizar la extracción de la respuesta lo más **textual** posible .


**Entrega: lunes 20 de noviembre**

**Debe entregar todas las salidas obtenidas en una ejecución secuencial de los bloques de este notebook**

---

**Nro Grupo:** [número de grupo]

**Inegrantes:** [integrantes del grupo]

## **Configuración del entorno**

A continuación se instalarán algunas librerías que serán útiles a lo largo de este notebook. En caso de instalar otras librerías puede hacerlo en esta sección.

In [None]:
#@title Instalación de librerias
!pip install transformers
!pip install bitsandbytes
!pip install accelerate
!pip install bert-score

Otras librerías:

In [None]:
# Otras librerías
#!pip install ..

Al imprimir las salidas generadas por los LLMs resulta útil ajustar el texto al ancho de la pantalla para visualizarlo:

In [None]:
#@title Estilo de salida de colab
from IPython.display import HTML, display
pre_run_cell_fn = lambda: display(HTML(''''''))
get_ipython().events.register('pre_run_cell', pre_run_cell_fn)

## **Acceso a LLaMA 2**





Para construir el sistema de QA, una alternativa sugerida es utilizar la familia de modelos de LLaMA 2 de Meta mediante Hugging Face (https://huggingface.co/meta-llama). Se recomienda leer https://huggingface.co/blog/llama2



Para usar LLaMA debe seguir los siguientes pasos:

- Llenar el siguiente formulario: https://ai.meta.com/resources/models-and-libraries/llama-downloads/
- Aceptar los términos de Hugging Face (con el mismo mail ingresado en el formulario anterior) que aparecen bajo el título "Access Llama 2 on Hugging Face" en: https://huggingface.co/meta-llama/Llama-2-7b
- Ejecutar la siguiente celda e ingresar un token (con 'write' access) asociado a la cuenta de Hugging Face (para obtener el token: https://huggingface.co/settings/tokens).

**Se recomienda ejecutar los modelos en GPU**


In [None]:
#@title Conectar con Hugging Face
from huggingface_hub import notebook_login

notebook_login()

In [None]:
#@title Instanciar modelo y tokenizer
import torch
import tempfile
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "meta-llama/Llama-2-7b-chat-hf" #@param ["meta-llama/Llama-2-7b", "meta-llama/Llama-2-7b-chat-hf", "meta-llama/Llama-2-13b", "meta-llama/Llama-2-13b-chat-hf", "Open-Orca/OpenOrca-Platypus2-13B", "stabilityai/StableBeluga-13B", "tiiuae/falcon-40b", "tiiuae/falcon-40b-instruct"]

def obtener_modelo_y_tokenizer(model_name):
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model_llm = AutoModelForCausalLM.from_pretrained(
 model_name,
 load_in_4bit=True,
 torch_dtype=torch.bfloat16,
 device_map="auto",
 )
 return model_llm, tokenizer


### **Formatos de *prompt* de los modelos**

Los modelos que vamos a utilizar pasaron por un proceso de fine-tuning y/o RLHF (Reinforcement Learning from Human Feedback), y tienen como formato de prompt el mismo que fue utilizado en para el entrenamiento. Para usar cada modelo adecuadamente hay que respetar su formato.

A continuación se muestran los formatos de los modelos seleccionables en el bloque anterior:



- LLaMA-2-chat-hf
 ```
 \[INST] 
 <\>
 Instrucciones de la tarea
 <\>

 Instancia particular de la tarea (por ej. pregunta del usuario).
 [/INST]
 ```

- OpenOrca-Platypus2
 ```
 \### Instruction:

 Instrucciones e instancia particular de la tarea.

 \### Response:
 ```


- StableBeluga
 ```
 \### System:

 Instrucciones de la tarea.

 \### User:

 Instancia particular de la tarea.

 \### Assistant
 ```


Los modelos **Llama-2-7b** y **Llama-2-13b** son **LLaMA 2 base** y no tienen un formato de prompt.

## **Ejemplo de uso**



A continuación se muestra un ejemplo de uso de **LLaMA-2-chat-hf**. El ejemplo está dividido en dos partes:
1. Construir el prompt para LLaMA-2-chat-hf
2. Instanciar modelo y generar una respuesta para el prompt construido

In [None]:
#@title 1. Contruir prompt

instrucciones = """
Responde en Español y la respuesta tiene que ser extraída del siguiente texto:

Comisión de expertos del FA elaboró “plan de contención económica social”
Ante las consecuencias económicas de la propagación del coronavirus y las
medidas anunciadas por el Ejecutivo, una comisión de expertos del Frente
Amplio (FA) elaboró “un plan de contención económica social” para mitigar
el impacto de la emergencia sa
nitaria. El borrador del proyecto, al que
accedió la diaria, se basa en un “aumento transitorio del gasto y de la
inversión pública para minimizar el efecto de la desaceleración económica
y su impacto en la población” por medio de un conjunto de medidas estructuradas
en tres objetivos: “Preservar las empresas y las y los trabajadores”, “no
aumentar la pobreza y la desigualdad” y prepararse para “el día después”.
La comisión designada por la coalición de izquierda para elaborar la propuesta
está integrada por el actual senador y ex ministro de Economía y Finanzas Danilo
Astori, el senador Daniel Olesker, el ex ministro de Trabajo y Seguridad Social
Ernesto Murro y la economista Andrea Vigorito.
"""

pregunta = """
¿Para qué se elaboró el “plan de contención económica social”?
"""

prompt = f'[INST] <> {instrucciones} <> {pregunta} [/INST]'
print(prompt)

In [None]:
#@title 2. Generar respuesta
from transformers import GenerationConfig, pipeline, logging
from transformers.utils import logging

logging.set_verbosity(logging.CRITICAL)

# instanciar modelo y tokenizer
model_llm, tokenizer = obtener_modelo_y_tokenizer("meta-llama/Llama-2-7b-chat-hf")

In [None]:
def obtener_respuesta(prompt, model=model_llm, tokenizer=tokenizer, temp=0.7, max_tok=500):
 cfg = GenerationConfig(temperature=temp, num_return_sequences=1,
 max_length=750, do_sample=True)
 p = pipeline("text-generation", model=model, config=cfg, tokenizer=tokenizer)
 output = p(prompt, return_full_text=False, max_new_tokens=max_tok)
 return output[0]['generated_text']

In [None]:
resp = obtener_respuesta(prompt).strip()
print(resp)
# Respuesta esperada: "mitigar el impacto de la emergencia sanitaria"

## **Conjunto de datos (QuALES covid19-qa)**




Para construir el sistema de QA extrativo utilizará el conjunto de datos de la compentencia QuALES (https://codalab.lisn.upsaclay.fr/competitions/2619)

Los conjuntos están separados en train, dev y test. Cada partición tiene un conjunto de textos, a cada texto le corresponde un título y párrafos que tienen asociados un conjunto de preguntas con una o más respuestas para cada pregunta.


In [None]:
#@title Descargar dataset
import locale
locale.getpreferredencoding = lambda: "UTF-8" # temporary fix: https://github.com/googlecolab/colabtools/issues/3409

! wget https://eva.fing.edu.uy/mod/resource/view.php?id=197167 -O dataset_covid_qa.zip
! unzip dataset_covid_qa.zip

In [None]:
#@title Cargar dataset en memoria
import json

with open('./dataset_covid_qa_train.json', 'r', encoding='utf-8') as f:
 train_data = json.load(f)
with open('./dataset_covid_qa_dev.json', 'r', encoding='utf-8') as f:
 dev_data = json.load(f)
with open('./dataset_covid_qa_test.json', 'r', encoding='utf-8') as f:
 test_data = json.load(f)

In [None]:
#@title Ejemplo de datos del dataset

print(json.dumps(train_data['data'][:2], indent=1, ensure_ascii=False))


In [None]:
#@title Preprocesar dataset

def prepare_data(data_json):
 ret = []
 nqas = 0
 nans = 0
 for d in data_json['data']:
 for p in d['paragraphs']:
 context = p['context']
 qas = [(qa['question'],[ans['text'] for ans in qa['answers']]) for qa in p['qas']]
 ret += [(context, qas)]
 nqas += len(qas)
 nans += len([a for _,ans in qas for a in ans])
 print(nqas, "preguntas", f"({nans} respuestas)")
 return ret


train_d = prepare_data(train_data)
dev_d = prepare_data(dev_data)
test_d = prepare_data(test_data)

## **Evaluación**


Para evaluar el desempeño de los modelos se debe reportar las siguientes medidas:
- *F* de **BERTScore** https://huggingface.co/spaces/evaluate-metric/bertscore
- *Accuracy* de **match exactos**

In [None]:
pred = ['mitigar el impacto de la emergencia sanitaria',
 'Danilo Astori, el senador Daniel Olesker, el ex ministro',
 'preservación de los puestos de trabajo']
ref = ['mitigar el impacto de la emergencia sanitaria',
 'Danilo Astori, el senador Daniel Olesker, el ex ministro de Trabajo y Seguridad Social Ernesto Murro y la economista Andrea Vigorito',
 'preservación de los puestos de los trabajadores']

In [None]:
from bert_score import score

def calcular_f_bert_avg(pred,ref):
 s = score(pred, ref, lang="es")
 return s[2].mean()

print("F-BERTScore (avg):", calcular_f_bert_avg(pred,ref))

In [None]:
from sklearn.metrics import precision_recall_fscore_support


def caclular_acc_exact(pred, ref):
 n = 0
 for r,p in zip(ref,pred):
 n += int(r == p)
 return float(n)/len(ref)

print("Acc-exact:", caclular_acc_exact(pred, ref))

## **Ejemplo de sistema de QA con Llama-2-7b-chat-hf y dataset impartido**


A continuación se muestra un ejemplo de sistema con **Llama-2-7b-chat-hf** y el dataset impartido.

In [None]:
#@title Generar prompt a partir de datos

def generar_prompt_qa(contexto, qas):
 sistema = f"""
 Responde en Español y en menos de {len(qas)*15} palabras.
 La respuesta tiene que ser extraída del siguiente texto:
 {contexto}
 """

 preguntas = ""

 for i,(p,_) in enumerate(qas):
 preguntas += f"{i}. {p} \n"

 return f'''[INST] <> {sistema} <> {preguntas} [/INST]'''

In [None]:
#@title Obtener respuesta para el primer elemento del dataset

p1 = generar_prompt_qa(train_d[0][0],train_d[0][1])
r1 = obtener_respuesta(p1).strip()
print("PROMT:\n", p1)
print("\n\nRESPUESTA:\n", r1)

In [None]:
#@title Extraer la respuesta a cada pregunta (expresiones regulares)

import re

def extraer_respuestas(r):
 return re.findall(r'\d\. (.*)', r)

In [None]:
#@title Imprimir respuestas generadas y esperadas

r1_gen = extraer_respuestas(r1)
r1_datos = [a[0] for q,a in train_d[0][1]]

for i,(a,b) in enumerate(zip(r1_datos, r1_gen)):
 print(i)
 print("GENERADA: ", b)
 print("ESPERADA: ", a)

In [None]:
print("F-BERTScore (avg):", calcular_f_bert_avg(r1_gen,r1_datos))
print("Acc-exact:", caclular_acc_exact(r1_gen, r1_datos))

Ejecutar en **todo** el dataset de *test*:

In [None]:

r_gen_tot = []
r_datos_tot = []

for text, qas in test_d:
 try:
 p = generar_prompt_qa(text,qas)
 r = obtener_respuesta(p).strip()
 r_gen = extraer_respuestas(r)
 r_datos = [a[0] for q,a in qas]
 print(len(r_gen),len(r_datos))
 if len(r_gen) == len(r_datos):
 r_gen_tot += r_gen
 r_datos_tot += r_datos
 else:
 r_datos_tot += r_datos
 r_gen_tot += [""] * len(r_datos)
 except:
 print("error")
 r_datos_tot += r_datos
 r_gen_tot += [""] * len(r_datos)



In [None]:
print("F-BERTScore (avg):", calcular_f_bert_avg(r_gen_tot,r_datos_tot))
print("Acc-exact:", caclular_acc_exact(r_gen_tot, r_datos_tot))

# **Se Pide**



Se pide implementar un sistema de respuestas a preguntas extrayendo la respuesta de un texto dado. Para la implementación se sugiere utilizar LLaMA 2 y mecanismos de *prompting*, con el dataset impartido.

Para "ajustar" cada modelo tiene disponible los datasets de *train* y *dev*. Los resultados deben ser reportados sobre *test*.


**Se pide:**
 - Reportar experimentos con al menos 3 modelos distintos
 - Utilizar al menos 3 prompts diferentes (independientemente del formato de prompt)
 - Debe reportar resultados para al menos 5 experimentos distintos
 - Comente resultados o problemas que considere interesantes 


### **Experimento 1**

In [None]:
## Código y secciones para el experimento

### **Experimento 2**

In [None]:
## Código y secciones para el experimento

### **Experimento 3**

In [None]:
## Código y secciones para el experimento

### **Experimento 4**

In [None]:
## Código y secciones para el experimento

### **Experimento 5**

In [None]:
## Código y secciones para el experimento

# **Resultados Obtenidos**

En esta sección debe reportar los resultados obtenidos en los experimentos realizados.

Los experimentos realizados deben estar numerados (1, 2, etc.). El experimento 0 corresponde a la linea base impartida en este notebook.

Para cada experimento reportado se debe dar una breve descripción indicando el LLM utilizado y detalles sobre el experimento.

Se deben indicar las medidas F_bertscore y Acc_exact en la partición *test* para todos los experimentos reportados.



### Tabla de resultados

Exp | Descripción | Acc_exact | F_bertscore
--- | --- | --- | ---
0 | LLaMA-2-chat-hf con prompt recibiendo el texto, las preguntas numeradas y limitando la cantidad de palabras de la respuesta | 0.078 | 0.32
