Redes Neuronales para Lenguaje Natural, 2023

---
# Uso de Word Embeddings en un clasificador

En este notebook exploraremos una colección de word embeddings preentrenada y veremos cómo utilizarla para entrenar un clasificador de análisis de sentimiento.


---



Descargar los embeddings de SBWC

In [None]:
! wget https://cs.famaf.unc.edu.ar/~ccardellino/SBWCE/SBW-vectors-300-min5.bin.gz
! gzip -d SBW-vectors-300-min5.bin.gz

Abrirlos con la biblioteca de embeddings gensim

In [None]:
from gensim.models import KeyedVectors
wv = KeyedVectors.load_word2vec_format("./SBW-vectors-300-min5.bin", binary=True)
print(wv.vectors.shape)
embeddings_size = wv.vectors.shape[1]

Probar algunos casos simples de interés.

¿Cómo son los vectores de gensim?

¿Qué otras palabras hay cerca de una palabra objetivo?

In [None]:
print(wv['perro'])
print(wv.most_similar('perro'))

Probar algunas analogías, utilizando el método most_similar() de gensim:

rey - hombre + mujer ≈ reina

parís - francia + uruguay ≈ montevideo

Buscar por lo menos cuatro ejemplos más de analogías.

In [None]:
# cálculo de analogías

Probar algunas similitudes entre palabras utilizando el método similarity() de gensim

Considere los pares:

* perro - gato
* frío - helado
* democracia - monarquía
* frío - caliente

Escribir por lo menos seis pares más.

¿Cuáles deberían estar más cerca según la intuición humana?

¿Se cumple eso en los embeddings?


In [None]:
# cálculo de similitud

Probar el cálculo de distancia con el método distance() de gensim. ¿Cuál es la relación con el método usado en la parte anterior?

In [None]:
# cálculo de distancia

Visualizar con dos técnicas de reducción de dimensionalidad: PCA y t-SNE

Probaremos con un conjunto particular de palabras de distintas clases.

Realice más pruebas utilizando otras palabras que le parezcan relevantes.

In [None]:
import matplotlib.pyplot as plt
import numpy as np

words = ['perro','gato','elefante','tiburón','loro','paloma','ballena','democracia','trabajo','economía','política','guerra','aerodinámico','rápido','lento','intenso','furioso','azul','rojo','verde','amarillo','naranja','lunes','martes','domingo','febrero','diciembre','comer','saltar','dormir','volar','salir','entrar']
X = np.array([wv[w] for w in words])

In [None]:
from sklearn.decomposition import PCA

X_pca = PCA(n_components=2).fit_transform(X)

fig, ax = plt.subplots(figsize=(10,10))
ax.scatter(X_pca[:,0], X_pca[:,1])

for i, w in enumerate(words):
 ax.annotate(w, X_pca[i])

In [None]:
from sklearn.manifold import TSNE

X_tsne = TSNE(n_components=2, learning_rate='auto',init='random', perplexity=3).fit_transform(X)

fig, ax = plt.subplots(figsize=(10,10))
ax.scatter(X_tsne[:,0], X_tsne[:,1])

for i, w in enumerate(words):
 ax.annotate(w, X_tsne[i])


Obtener y cargar el corpus de análisis de sentimiento

In [None]:
! wget https://eva.fing.edu.uy/mod/resource/view.php?id=194796 -O senti-corpus.zip
! unzip senti-corpus.zip

In [None]:
import numpy as np
import pandas as pd
from collections import Counter
from sklearn.metrics import precision_recall_fscore_support, accuracy_score

train_df = pd.read_csv('./senti-train.tsv',sep='\t')
dev_df = pd.read_csv('./senti-dev.tsv',sep='\t')
test_df = pd.read_csv('./senti-test.tsv',sep='\t')


Para utilizar los textos del corpus en un clasificador, debemos realizar las siguientes acciones:

1. Preprocesar los textos (p.e. tokenizar)
2. Transformarlos a una representación vectorial (p.e. centroide)
3. Obtener los labels del corpus (que son valores 0 o 1) como array de numpy.


In [None]:
# código de preprocesamiento

train_tokens = ...
dev_tokens = ...
test_tokens = ...


In [None]:
# código de vectorización

train_v = ...
dev_v = ...
test_v = ...


In [None]:
train_labels = np.array(train_df.iloc[:,1])
dev_labels = np.array(dev_df.iloc[:,1])
test_labels = np.array(test_df.iloc[:,1])

print("train",np.bincount(train_labels))
print("dev",np.bincount(dev_labels))
print("test",np.bincount(test_labels))


El siguiente código es un script de evaluación muy simple que toma un clasificador, un conjunto de datos y sus labels esperados, y nos devuelve Precisión, Recall, F1 y Accuracy.

Utilizaremos este script de evaluación para comparar todos nuestros resultados.


In [None]:
from sklearn.metrics import precision_recall_fscore_support, accuracy_score

def evaluate(clf,vectors,labels):
 pred = clf.predict(vectors)
 p,r,f,s = precision_recall_fscore_support(labels,pred,average='macro')
 a = accuracy_score(labels,pred)
 print("P %s, R %s, F %s, A %s" % (p,r,f,a))


Entrenar clasificadores en sklearn intentando encontrar el mejor para los datos de dev. Por ejemplo: LogisticRegression, RandomForestClassifier, SVC

In [None]:
clf1 = ... # construyo y entreno el clasificador

evaluate(clf1,dev_v,dev_labels)

In [None]:
clf2 = ...

evaluate(clf2,dev_v,dev_labels)

Evaluar sobre el conjunto de test la performance del mejor clasificador encontrado

In [None]:
clf_best = ... # el mejor clasificador que encontré
evaluate(clf_best,test_v,test_labels)