CDLN: Laboratorio 2 - Parte I.1.2

Hola, cómo están?

En la parte I.1.2 del laboratorio, se pretende lo siguiente: "Para cada opinión del dataset analiza cada palabra si la palabra, o su lema, se encuentra en alguna de las listas."

Subrayo ese "o su lema" ya que me genera confusión. Es necesario chequear cada palabra y su lema para verificar si alguna de las dos pertenece al léxico positivo o negativo? O alcanza con chequear las palabras o los lemas indistintamente?

En particular, en mi implementación yo usaba algo del estilo para contar cuántas palabras de la frase coincidían con los léxicos (creo que está todo bien con adjuntar ese pedacito de código, no?):

cant_positivas = len(list(set(oracion).intersection(lexico_pos))) (*)

Hasta ese momento no estaba considerando los lemas para el conteo y el código me funcionaba rápido. Al incorporar los lemas, me encontré con algunas dificultades:

Algunas palabras tienen más de un lema asociado (al menos Stanza en español me retorna eso), lo cual implica que la relación entre una palabra y su lema no sea uno a uno. En este punto, lo más performante sería obtener para una oración, la "oración de lemas" asociada, pero por el impedimento del punto anterior termino yendo palabra a palabra para encontrar los lemas (y me enlentece abundante la solución).
La solución marcada en (*) no puedo aplicarla a la oración y a la "oración de lemas", dado que si una palabra y su lema pertenecen al listado positivo, la terminaría contando doble. Entonces termino evaluando palabra a palabra si ella (o su lema) pertenecen a los léxicos y en caso de que ambas lo hagan, cuento una única ocurrencia.

Entonces no sé si me compliqué al cuete, si se entendió algo de lo que puse o si se puede no mirar el lema para solucionar el laboratorio, je.

Cualquier cosa me dicen y aclaro un poco el mensaje, porque capaz quedó medio entreverado.

Gracias!

Re: Laboratorio 2 - Parte I.1.2

de Dina Wonsever - lunes, 26 de septiembre de 2022, 16:39

Hola,

Supongo que si hacés pos-tagging te quedás con un solo lema, ya que el tagger desambigua.

Lo del lema es importante porque si tenés una forma flexionada probablemente no encuentres en la lista términos que sí figuran, pero solo en forma canónica.

Parto de la base que en la lista están solo los lemas.

Saludos,

Dina