Este jueves 7/7 tenemos dos defensas de proyectos de grado del grupo PLN.
A las 9 hs, en el salón Rojo (7º piso), Agustín Azzinnari y Alejandro Martínez presentan su trabajo "Representación de Palabras en Espacios de Vectores" (tutores: Dina Wonsever y Mathias Etcheverry).
A las 18 hs, en el salón Marrón (705), Guillermo Dufort y Álvarez, Fabián Kremer y Gabriel Mordecki presentan su trabajo "Determinación de la orientación semántica de las opiniones transmitidas en textos de prensa" (tutora: Aiala Rosá).
Copio los resúmenes de los proyectos más abajo.
Están todos invitados.
Saludos,
Aiala
Representación de Palabras en Espacios de Vectores
Se realizó una evaluación y comparación de las principales técnicas para la generación de representaciones vectoriales de palabras aplicadas al idioma español, haciendo especial énfasis en la experimentación directa con las mismas. Dado que las técnicas estudiadas requieren grandes cantidades de texto para su buen funcionamiento, se investigaron y aplicaron técnicas para la extracción masiva de texto de Internet. A su vez, se construyó una herramienta web para simplificar las tareas de entrenamiento y evaluación de los vectores generados.
Para la evaluación de las representaciones vectoriales se tradujeron al español los principales conjuntos de prueba de la literatura y se propusieron además una serie de casos de prueba novedosos como complemento a los ya existentes.
Como resultado se presenta un corpus en idioma español de mas de seis mil millones de palabras, junto con una herramienta de código abierto que permite generar y evaluar vectores de palabras utilizando diversos algoritmos del estado del arte del campo. La evaluación de las representaciones generadas arrojó, asimismo, resultados comparables a los obtenidos en la literatura para el idioma inglés.
Determinación de la orientación semántica de las opiniones transmitidas en textos de prensa
El análisis de sentimiento es una de las áreas del Procesamiento del Lenguaje Natural que más interés ha despertado en los últimos años por sus posibles aplicaciones académicas y en la industria. Ha experimentado un gran avance debido, entre otras razones, al crecimiento de las opiniones públicas disponibles en la web.
En este proyecto se construye un módulo de análisis de sentimiento de opiniones de prensa uruguaya para integrarse con BuscOpiniones: un sistema que recupera las opiniones presentes en los artículos y permite realizar búsquedas sobre ellas.
Con ese objetivo, se anota un corpus de 2199 opiniones extraídas por BuscOpiniones como Positivas, Neutrales o Negativas. Finalmente, se crean tres clasificadores de sentimiento: uno basado en reglas, otro basado en aprendizaje automático, y el restante con un enfoque híbrido. El clasificador híbrido es el que obtiene los mejores resultados alcanzando un 64% en accuracy. El resultado es significativamente mejor que el de la línea base, con 50%, y está a 8% de la línea tope marcada por la concordancia de los tres anotadores del corpus.