IntroPLN: Consulta tarea 2

Hola, en la parte 3 de la tarea dice "Se publicó en eva un léxico de palabras positivas y negativas que puede ser utilizado para generar atributos.". Nos imaginamos que la idea es concatenar un vector de dimension 2 que tenga el numero de palabras positivas y el numero de palabras negativas en cada tweet al vector que representa el tweet, es esa la idea o lo estamos interpretando mal?

Ademas no nos queda claro para que usamos el corpus de train, estamos usando el de devel y el de test, estamos pasando algo por alto? Gracias!

Re: Consulta tarea 2

de Aiala Rosá - InCo - domingo, 18 de junio de 2023, 10:39

Hola,

Sobre los léxicos subjetivos

Se pueden usar agregando dos atributos, o también pueden buscar otras variantes, como las que se describen en http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6202. En ese trabajo no se lograron mejoras importantes usando los léxicos.

Sobre el uso de las particiones del corpus

Pueden repasar un poco en los materiales del curso (clasificación), o en la bibliografía.

En general trabajamos con tres particiones: entrenamiento, desarrollo (o validación, o held-out) y testeo (o evaluación).

La partición para entrenamiento es la más grande y se usa para entrenar los modelos. Se hacen diferentes experimentos cambiando atributos o parámetros (entrenando siempre con el corpus de entrenamiento), y se evalúan sobre el corpus de desarrollo para ir definiendo las mejores combinaciones.

Finalmente se evalúan sobre el corpus de testeo las versiones finales de los modelos que hayan dado los mejores resultados sobre desarrollo.

A veces solo se usan dos particiones, entrenamiento y testeo, y se van ajustando parámetros y comparando modelos haciendo cross-validation sobre el mismo corpus de entrenamiento.

Saludos,

Aiala