Redes Neuronales para Lenguaje Natural, 2023

---
# POS-tagging con redes LSTM

En este notebook construiremos un etiquetador de categorías gramaticales (POS-tagger) usando una arquitectura LSTM en Pytorch. Los datos que utilizaremos son una versión reducida del corpus AnCora en español, etiquetada según el estándar Universal Dependencies.


---



In [None]:
import string
import random
import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F

BATCH_SIZE = 64

Descargar y abrir los archivos de datos

In [None]:
! wget https://eva.fing.edu.uy/mod/resource/view.php?id=195738 -O ancora_mini.zip
! unzip ancora_mini.zip

In [None]:
def load_data_file(filename):
 with open(filename) as f:
 tokens = []
 sent = []
 for l in f:
 if l.startswith('#'):
 continue
 toks = l.strip().split('\t')
 if (len(toks) >= 3) and ('-' not in toks[0]) and ('.' not in toks[0]):
 sent.append((toks[1],toks[3]))
 elif len(toks) <= 1:
 tokens.append(sent)
 sent = []

 if len(sent) > 0:
 tokens.append(sent)

 return tokens

train = load_data_file('ancora_mini_train.txt')
dev = load_data_file('ancora_mini_dev.txt')
test = load_data_file('ancora_mini_test.txt')
print(len(train),len(dev),len(test))

Imprimimos un par de ejemplos para ver el formato con el que estamos trabajando.

In [None]:
print(train[0])
print(train[20])

Trabajaremos con la colección de embeddings de SBWC. Descargarlos y abrirlos con gensim.


In [None]:
! wget https://cs.famaf.unc.edu.ar/~ccardellino/SBWCE/SBW-vectors-300-min5.bin.gz
! gzip -d SBW-vectors-300-min5.bin.gz

In [None]:
from gensim.models import KeyedVectors
wv = KeyedVectors.load_word2vec_format("./SBW-vectors-300-min5.bin", binary=True)
print(wv.vectors.shape)
vocab_size = wv.vectors.shape[0]
embeddings_size = wv.vectors.shape[1]

Haremos un pequeño análisis de cobertura de la colección de embeddings sobre los tokens utilizados en el corpus.

Consideraremos cuatro clases de tokens: palabras conocidas (están en SBWC), números, símbolos de puntuación, y palabras desconocidas.

La heurística para determinar si un token es número o símbolo de puntuación será si comienza con un dígito o símbolo de puntuación.

In [None]:
words = []
puncts = []
nums = []
unk = []
labels = set()
for sent in train+dev+test:
 for (t,p) in sent:
 if t in wv:
 words.append(t)
 elif t[0] in string.punctuation:
 puncts.append(t)
 elif t[0] in ['0','1','2','3','4','5','6','7','8','9']:
 nums.append(t)
 else:
 unk.append(t)
 labels.add(p)

print("Total: w %s p %s n %s u %s" % (len(words),len(puncts),len(nums),len(unk)))
words = set(words)
puncts = set(puncts)
nums = set(nums)
unk = set(unk)
print("Únicas: w %s p %s n %s u %s" % (len(words),len(puncts),len(nums),len(unk)))


Por lo que vemos del análisis, tenemos vectores para todas las palabras conocidas y para los dígitos, y solamente hay un 0.05% de palabras que no están en la colección de embeddings. Utilizaremos un embedding aleatorio para representar estas palabras desconocidas.

A esto hay que agregarle los símbolos de puntuación: SBWC no contiene embeddings para estos símbolos. Como forma de paliar esta situación, también nos crearemos un embedding aleatorio.

Pytorch trabajará con secuencias de números enteros, y no con las palabras en sí, por lo que construiremos una forma de pasar cada posible token y cada posible label a una representación numérica.

Primero comenzamos creando los diccionarios de palabras y labels que utilizaremos. Estos diccionarios contendrán todos los posibles tokens y labels representables en nuestro corpus.

A los tokens presentes en el corpus, les agregaremos cuatro tokens especiales:
- PAD: para realizar padding de las secuencias (se verá más adelante)
- UNK: representa las palabras desconocidas
- PUNCT: representa símbolos de puntuación
- NUM: representa números

A los labels les agregaremos solo un label especial NONE que se corresponderá con los tokens de PAD.

In [None]:
words = ['','','',''] + sorted(words)
wordict = { w:i for (i,w) in enumerate(words) }
labels = ['NONE'] + sorted(labels)
labeldict = { l:i for (i,l) in enumerate(labels) }

def get_index(word,wordict):
 if word in wordict:
 return wordict[word]
 elif word[0] in string.punctuation:
 return wordict['']
 elif word[0] in [0,1,2,3,4,5,6,7,8,9]:
 return wordict['']
 else:
 return wordict['']

print("words",words[:10],"...")
print("wordict",[(w,wordict[w]) for w in words[:10]],"...")
print("labels",labels)
print("labeldict",labeldict)

A continuación nos crearemos una matriz más pequeña que tenga solo los embeddings con los que vamos a trabajar, de forma de que ocupen la menor cantidad de memoria posible. Esta matriz servirá como pesos de inicialización de la capa de embeddings de la red.

Crear una matriz de embeddings que sea del tamaño len(words) * 300 conteniendo los embeddings que representan todos los tokens en orden.

El embedding correspondiente a los números en SBWC es "DIGITO", el embeddings correspondiente a "PAD" será un vector de ceros, y será necesario crearse dos embeddings aleatorios (distintos) del tamaño correcto para representar símbolos de puntuación y palabras desconocidas.

In [None]:
# su código aquí...
pad_vector = ...
punct_vector = ...
num_vector = ...
unk_vector = ...
embeddings = ...

print("Matriz de embeddings:",embeddings.shape)
vocab_size = embeddings.shape[0]
embeddings_dim = embeddings.shape[1]


Notar que hasta ahora nuestros ejemplos tienen este formato:

`[ (token1,label1), (token2,label2), (token3,label3), ....]`


Necesitamos que estén en el siguiente formato para poder presentarlos a la red y luego comparar la salida esperada a la obtenida:

`( [num_token1, num_token2, num_token3,...], [num_label1, num_label2, num_label3,...] )`

Escribir código para transformar las tres particiones al formato necesario.

In [None]:
# su código aquí
train_word_labels = ...
dev_word_labels = ...
test_word_labels = ...

print("train",len(train_word_labels))
print("dev",len(dev_word_labels))
print("test",len(test_word_labels))


En este ejercicio crearemos los minibatches a mano. Para que sea más eficiente el entrenamiento, usaremos la técnica de ordenar las oraciones, de forma que dentro de un mismo batch queden oraciones de tamaños lo más similares posible.

Empecemos por ordenar las oraciones dentro de cada partición por largo:

In [None]:
train_word_labels.sort(key = lambda x:len(x[0]))
dev_word_labels.sort(key = lambda x:len(x[0]))
test_word_labels.sort(key = lambda x:len(x[0]))

Ahora que las particiones tienen las oraciones ordenadas por largo, escriba una función que obtenga los ejemplos de una partición y genere minibatches de tamaño BATCH_SIZE particionando la lista.

Estos minibatches serán utilizados como entrada y salida esperada de la red, por lo que tendrán que tener la forma requerida por Pytorch: la función debe devolver dos listas, word_batches y label_batches, que contengan tensores de tipo long.

Notar que para poder crear un tensor a partir de un minibatch, todas las oraciones del minibatch deben tener el mismo largo. Para eso utilizaremos el token especial PAD y el label especial NONE que definimos antes.

In [None]:
def get_batches(words_labels):
 # su código aquí
 ...
 return word_batches,label_batches


In [None]:
train_word_batches,train_label_batches = get_batches(train_word_labels)
print("train",train_word_batches[0].shape,train_word_batches[0].dtype)
dev_word_batches,dev_label_batches = get_batches(dev_word_labels)
print("dev",dev_word_batches[0].shape,dev_word_batches[0].dtype)
test_word_batches,test_label_batches = get_batches(test_word_labels)
print("test",test_word_batches[0].shape,test_word_batches[0].dtype)


Llegó la hora de implementar la red LSTM. Esta red debe tener:
- Una capa de embeddings (torch.nn.Embeddings), la que inicializaremos con la matriz de embeddings que definimos más arriba (poner requires_grad en False para que el entrenamiento sea más rápido, no queremos modificar los pesos de los embeddings)
- Una capa LSTM (torch.nn.LSTM), su entrada es la dimensión de los embeddings, y el tamaño de la capa oculta debe quedar como parámetro
- Una capa lineal (torch.nn.Linear) que va de la capa oculta de la LSTM a la salida final, que tiene tamaño len(labels)


In [None]:
class LSTMTagger(nn.Module):

 def __init__(self, ....):
 super(LSTMTagger, self).__init__()
 # su código aquí

 def forward(self, batch):
 # su código aquí
 return tag_scores


Escribir una función para evaluar la red. Debe tomar los minibatches de palabras y de labels a evaluar, ejecutar la red y calcular el accuracy.

In [None]:
def evaluate(net,word_batches,label_batches):
 # su código aquí
 acc = ...
 print("accuracy",acc)
 return acc


Instanciar y entrenar la red. Utilizaremos la función de pérdida NLLLoss, notar que para eso es necesario que lo que devuelva la red sea el logaritmo de las probabilidades (usar la función log_softmax como activación a la salida de la red).

In [None]:
loss_function = nn.NLLLoss()

lstmnet = LSTMTagger(...) # los parámetros apropiados
evaluate(lstmnet,dev_word_batches,dev_label_batches) # seguro va a dar muy cerca de 0 al principio!

optimizer = optim.SGD(lstmnet.parameters(), lr=0.1)

for epoch in range(...): # elegir
 for word_batch,label_batch in zip(train_word_batches,train_label_batches):
 # su código aquí, se debe:
 # - inicializar los gradientes
 # - ejecutar la red sobre el batch (paso forward)
 # - usar la loss function para comparar la salida de la red con los labels esperados
 # - calcular los gradientes (paso backward)
 # - realizar el descenso por gradiente

 # ya que estamos, imprimimos la performance sobre dev luego de completada una epoch
 evaluate(lstmnet,dev_word_batches,dev_label_batches)



Finalmente, evaluar el resultado de la mejor red encontrada sobre el corpus de test.

In [None]:
evaluate(lstmnet,test_word_batches,test_label_batches)