Ciencia de Datos y Lenguaje Natural
Diagrama de temas
-
-
Enviar retroalimentación
-
En esta unidad el estudiante adquiere conceptos básicos relativos al lenguaje humano y a algunas herramientas informáticas que se han desarrollado para procesarlo. Se usan herramientas ya hechas de distintos tipos, analizando fundamentalmente cómo y para qué se utilizan y cómo se mide la performance y se visualizan los resultados.
-
Los enfoques empíricos en procesamiento automático de lenguaje se basan usualmente en repositorios de datos lingüísticos y en experimentos y modelos que se diseñan según el problema particular del que se trate.
En esta unidad se verán conceptos de estadística y de teoría de la información que proporcionan medidas para evaluar modelos y experimentos sobre datos lingüísticos y se experimentará con casos simples.
-
Una de las innovaciones recientes más significativas para la semántica léxica es la propuesta de representaciones vectoriales para las palabras. El objetivo de esta unidad es adquirir conceptos básicos del análisis del significado en el lenguaje humano y experimentar con modelos de semántica léxica distribuida.
-
Word Embeddings Intro URL
-
Redes Neuronales Intro URL
-
Redes Neuronales parte 2 URL
-
Los métodos actuales de procesamiento de lenguaje se apoyan fuertemente en datos. Además de los datos propios a cada aplicación existen recursos de uso general, tales como corpus , diccionarios o bases de datos léxicas, o repositorios generales de conocimiento del mundo, que son aprovechables por diversas aplicaciones. Algunas de estos repositorios fueron construidos manualmente, mientras que otros contienen datos extraídos de modo automático de grandes corpus, en los que se incluye la web.
El objetivo de esta unidad es conocer los recursos de uso más extendido y los métodos que los generan y actualizan.
-
Se profundiza en el tema Grafos de Conocimiento y Extracción de información por medio de presentaciones de artículos a cargo de los estudiantes.