Hola, cómo están?
En la parte I.1.2 del laboratorio, se pretende lo siguiente: "Para cada opinión del dataset analiza cada palabra si la palabra, o su lema, se encuentra en alguna de las listas."
Subrayo ese "o su lema" ya que me genera confusión. Es necesario chequear cada palabra y su lema para verificar si alguna de las dos pertenece al léxico positivo o negativo? O alcanza con chequear las palabras o los lemas indistintamente?
En particular, en mi implementación yo usaba algo del estilo para contar cuántas palabras de la frase coincidían con los léxicos (creo que está todo bien con adjuntar ese pedacito de código, no?):
- Algunas palabras tienen más de un lema asociado (al menos Stanza en español me retorna eso), lo cual implica que la relación entre una palabra y su lema no sea uno a uno. En este punto, lo más performante sería obtener para una oración, la "oración de lemas" asociada, pero por el impedimento del punto anterior termino yendo palabra a palabra para encontrar los lemas (y me enlentece abundante la solución).
- La solución marcada en (*) no puedo aplicarla a la oración y a la "oración de lemas", dado que si una palabra y su lema pertenecen al listado positivo, la terminaría contando doble. Entonces termino evaluando palabra a palabra si ella (o su lema) pertenecen a los léxicos y en caso de que ambas lo hagan, cuento una única ocurrencia.