## Laboratorio LSTM

En este laboratorio utilizaremos Redes LSTM para aprender a clasificar Tweets según su sentimiento (positivo/negativo/neutro).

Trabajaremos sobre el dataset del challenge [TASS 2020](http://tass.sepln.org/2020/). Este dataset contiene tweets en español anotados con su respectiva polaridad de sentimiento (P: positivo, N: negativo, NEU: neutro).

En particular utilizaremos los tweets correspondientes a Uruguay que fueron anotados por el Grupo de PLN de la Facultad de Ingeniería.

## Preparación de los datos

Para empezar importaremos el dataset a utilizar y visualezaremos la estructura de los datos.


In [None]:
import os
import pandas as pd

# Descomprimimos el archivo y verificamos
! wget https://eva.fing.edu.uy/pluginfile.php/357781/mod_folder/content/0/tass2020.tar.gz
! tar -zxf tass2020.tar.gz
assert os.path.isfile('tass2020/train/uy.tsv'), 'No se encontró el archivo; asegurate de haberlo cargado'
assert os.path.isfile('tass2020/dev/uy.tsv'), 'No se encontró el archivo; asegurate de haberlo cargado'
assert os.path.isfile('tass2020/test/uy.tsv'), 'No se encontró el archivo; asegurate de haberlo cargado'

# Agregamos etiquetas a los atributos
data_train = pd.read_csv('tass2020/train/uy.tsv', sep='\t', names=['id', 'text', 'polarity'])
data_dev = pd.read_csv('tass2020/dev/uy.tsv', sep='\t', names=['id', 'text', 'polarity'])
data_test = pd.read_csv('tass2020/test/uy.tsv', sep='\t', names=['id', 'text', 'polarity'])

# Eliminamos el atributo 'id'
data_train.drop(['id'], axis=1, inplace=True)
data_dev.drop(['id'], axis=1, inplace=True)
data_test.drop(['id'], axis=1, inplace=True)


In [None]:
# Separamos los atributos de la clase objetivo
X_train_text = data_train['text']
y_train_text = data_train['polarity'].values
X_dev_text = data_dev['text']
y_dev_text = data_dev['polarity'].values
X_test_text = data_test['text']
y_test_text = data_test['polarity'].values

In [None]:
from keras.preprocessing.text import Tokenizer
from keras.preprocessing import sequence

max_length = 50

# Toquenizamos las palabras
t = Tokenizer()
t.fit_on_texts(X_train_text)
X_train = t.texts_to_sequences(X_train_text)
X_dev = t.texts_to_sequences(X_dev_text)
X_test = t.texts_to_sequences(X_test_text)

# Agregamos padding
X_train = sequence.pad_sequences(X_train, maxlen=max_length)
X_dev = sequence.pad_sequences(X_dev, maxlen=max_length)
X_test = sequence.pad_sequences(X_test, maxlen=max_length)


In [None]:
from sklearn.preprocessing import LabelEncoder

# Convertimos las etiquetas a enteros
le = LabelEncoder()
le.fit(["P", "NEU", "N"])
y_train = le.transform(y_train_text)
y_dev = le.transform(y_dev_text)
y_test = le.transform(y_test_text)


### Ejercicio 1 - Descripción de los datos

1. Visualice y describa la estructura de los distintos atributos y la clase objetivo.
1. ¿Cuántos ejemplos tiene en total cada partición (entrenamiento y evaluación)?
1. ¿Y para cada valor de la clase objetivo?

In [None]:
# Código para responder las preguntas



Respuestas:


## Implementación de la Red Neuronal en Keras

A continuación implementaremos la red LSTM utilizando Keras.

### Ejercicio 2 - Descripción de la red

1. ¿Qué tipo de RNN utilizaría para esta tarea?
1. ¿Y qué tipo de función de activación? ¿Por qué?


Respuestas:


### Ejercicio 3 - Implementación de la red


Implemente una red neuronal con las siguientes características para resolver el problema planteado:

1. Entrada
1. Capa LSTM, de 32 unidades
1. Activación


In [None]:
from tensorflow import keras
from keras.models import Sequential
from keras.layers import Input, LSTM, Dense
import numpy as np

In [None]:
# Implementación del ejercicio 3

### Ejercicio 4 - Compilación del modelo

Compile el modelo utilizando:

* Optimizador: Adam con learning rate de 0.01
* Métrica de optimización: Accuracy
* Función de loss adecuada

In [None]:
# Implementación del ejercicio 4


In [None]:
# Visualización del modelo
model.summary()
keras.utils.plot_model(model, to_file='model.png', show_shapes=True, show_layer_names=False)

## Entrenamiento del modelo


### Ejercicio 5 - Entrenamiento de la red


Entrene el modelo anterior durante 20 épocas utilizando adecuadamente los datos de entrenamiento y validación.

In [None]:
# Implementación del ejercicio 5

### Visualización


In [None]:
import matplotlib.pyplot as plt

def plot_history(history):
 # Plot training & validation accuracy values
 plt.plot(history.history['accuracy'])
 plt.plot(history.history['val_accuracy'])
 plt.title('Model accuracy')
 plt.ylabel('Accuracy')
 plt.xlabel('Epoch')
 plt.legend(['Train', 'Validation'], loc='upper left')
 plt.show()

 # Plot training & validation loss values
 plt.plot(history.history['loss'])
 plt.plot(history.history['val_loss'])
 plt.title('Model loss')
 plt.ylabel('Loss')
 plt.xlabel('Epoch')
 plt.legend(['Train', 'Validation'], loc='upper left')
 plt.show()
 plt.clf()

In [None]:
plot_history(model.history)

## Evaluación del modelo

### Ejercicio 6 - Evaluación

Evalúe el modelo anterior utilizando los datos de test. ¿Qué accuracy tuvo el modelo?

In [None]:
# Implementación del ejercicio 6


## Embeddings



### Embeddings pre-entrenados

Para esta parte utilizaremos los embeddings pre-entrenados de [Fasttext](https://fasttext.cc/) para español.

In [None]:
# Descargamos y descomprimimos los Embeddings
! wget https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.es.300.vec.gz
! gzip -d cc.es.300.vec.gz

In [None]:
# Cargamos los embeddings
embeddings_index = {}
with open("cc.es.300.vec") as f:
 for line in f:
 word, coefs = line.split(maxsplit=1)
 coefs = np.fromstring(coefs, "f", sep=" ")
 embeddings_index[word] = coefs

In [None]:
# Preparamos la matriz de embeddings
num_tokens = len(t.word_index) + 2
embedding_dim = 300

embedding_matrix = np.zeros((num_tokens, embedding_dim))
for word, i in t.word_index.items():
 embedding_vector = embeddings_index.get(word)
 if embedding_vector is not None:
 # Words not found in embedding index will be all-zeros.
 # This includes the representation for "padding" and "OOV"
 embedding_matrix[i] = embedding_vector

### Ejercicio 7 - Implementación de la red

Ahora implemente, compile y visualice el siguiente modelo:

1. Entrada
1. **Capa de embeddings utilizando la matriz anterior**
1. Capa LSTM, de 32 unidades con
1. Activación Softmax


In [None]:
# Implementación del ejercicio 7

### Ejercicio 8 - Entrenamiento y visualización

Entrene el nuevo modelo

In [None]:
# Implementación del ejercicio 8

In [None]:
# Visualizamos los resultados del entrenamiento
plot_history(model_emb.history)

### Ejercicio 9 - Mejorando el modelo

A partir de los resultados obtenidos en entrenamiento. ¿Cómo podemos mejorar el modelo?

Respuesta:


Agregue al modelo anterior las capas que sean necesarias.

In [None]:
# Implementacion del ejercicio 9

In [None]:
plot_history(model_emb.history)

### Ejercicio 10 - Evaluación

Evalúe el nuevo modelo utilizando los datos de test. ¿Qué accuracy obtuvo?

In [None]:
# Implementacion del ejercicio 10

## Conclusiones


### Ejercicio 11 - Conclusiones sobre mejora

1. Comentar brevemente los resultados obtenidos al agregar Embeddings.
1. ¿De qué otra forma podemos mejorar los resultados?
