Propuestas de tesis 2021 | Maestría en Ciencia de Datos y Aprendizaje Automático | FING

Página Principal

Perfilado de sección

Propuestas de tesis 2021

Titulo:	Análisis de estructura de documentos del Archivo Berruti
Área:	Procesamiento de imágenes
Nombre del proponente:	Ignacio Ramírez
Email de contacto:	nacho@fing.edu.uy
Descripción de la propuesta:	(ver el adjunto por más info) El estudiante deberá familiarizarse y ponerse al día con los métodos existentes de Análisis de Estructura de Documentos (Document Layout Analysis). Deberá hacer una revisión exhaustiva de la bibliografía, e implementar por lo menos tres métodos de referencia en el área. La implementación deberá ser realizada en el lenguaje Python, de modo de poder integrarse a las herramientas actualmente existentes en el proyecto LUISA/Cruzar. Formación específica recomendada: ○ Competencias: ■ Python ■ Aprendizaje Automático ○ Cursos: ■ Tratamiento de Imágenes por Computadora ■ Aprendizaje Automático ■ DLVIS
Adjuntos:	LUISA-DocumentLayoutAnalysis.pdf
Marcas:

Titulo:	Preprocesamiento de imágenes para el proyecto LUISA/Cruzar
Área:
Nombre del proponente:	Ignacio Ramírez
Email de contacto:	nacho@fing.edu.uy
Descripción de la propuesta:	Área: Procesamiento de imágenes Subárea: Procesamiento y análisis de imágenes de documentos de texto Tema: Limpieza, alineamiento y rectificación de documentos escaneados Tutor: Ignacio Ramírez Formación específica recomendada: ○ Competencias: ■ Python ■ Aprendizaje Automático ○ Cursos: ■ Tratamiento de Imágenes por Computadora ■ Aprendizaje Automático ■ DLVIS Resumen de la propuesta: El estudiante deberá familiarizarse y ponerse al día con los métodos existentes de preprocesamiento de documentos que hacen a las primeras etapas en el Análisis de Estructura de Documentos (Document Layout Analysis). Deberá hacer una revisión exhaustiva de la bibliografía, e implementar por lo menos tres métodos de referencia en el área. La implementación deberá ser realizada en el lenguaje Python, de modo de poder integrarse a las herramientas actualmente existentes en el proyecto LUISA/Cruzar.
Adjuntos:	LUISA-Preprocesamiento (1).pdf
Marcas:

Titulo:	Optimización de políticas fiscales usando aprendizaje por refuerzos
Área:	Investigación Operativa, Inteligencia Artificial
Nombre del proponente:	Ignacio Ramírez
Email de contacto:	nacho@fing.edu.uy
Descripción de la propuesta:	Lo siguiente es tomado de economipedia.com: "La política fiscal es una disciplina de la política económica centrada en la gestión de los recursos de un Estado y su Administración. Está en manos del Gobierno del país, quién controla los niveles de gasto e ingresos mediante variables como los impuestos y el gasto público para mantener un nivel de estabilidad en los países." Los problemas de la política económica involucran decisiones complejas, que toman en cuenta una cantidad enorme de variables, y consecuencias críticas a corto, mediano y largo plazo. En ese contexto, y dado el éxito de los métodos de RL y DRL en este tipo de escenarios, la idea de aplicarlos para la toma de decisiones económicas está tomando mucha fuerza (ver referencias al final del documento adjunto). La idea es hacer una revisión del estado del arte, elegir por lo menos tres métodos, implementarlos y ensayarlos en un escenario sintético predefinido (por ejemplo, en el trabajo de Zheng et. al (2021) se desarrolló un simulador para probar los algoritmos que está disponiblepara el publico en: https://github.com/salesforce/ai-economist -- ver también https://einstein.ai/the-ai-economist).
Adjuntos:	ReinforcementLearningEconomics.pdf
Marcas:

Titulo:	Desarrollo de aplicaciones que requieran técnicas de aprendizaje automático y procesamiento de señales en IoT
Área:
Nombre del proponente:	Leonardo Barboni
Email de contacto:	ing.barboni@gmail.com
Descripción de la propuesta:	Deep-learning, junto a un gran número de algoritmos de aprendizaje automático han tenido recientemente un gran éxito en una variedad de dominios de aplicaciones, incluyendo visión por computadora, control, reconocimiento de patrones, procesamiento de lenguaje natural, y análisis de big data, entre otros. Ejemplos de ellos se pueden encontrar en [1]. Entrenar un modelo de aprendizaje automático requiere grandes recursos de hardware y computación. Es altamente caro debido a la cantidad de parámetros que necesitan ser refinados iterativamente durante múltiples períodos de tiempo. Y la inferencia es computacionalmente costosa debido a la potencial alta dimensionalidad de los datos de entrada. Actualmente se ha convertido en un desafío importante el poder adaptar los altos requisitos de recursos del aprendizaje automático (principalmente deep-learning) en hardware y firmware con reducidos recursos informáticos (edge-devices nodes en el contexto IoT) Diseñar un algoritmo de aprendizaje automático eficiente o seleccionar el algoritmo correcto para una aplicación dada es un gran desafío debido al gran número de decisiones de hiperparámetros y además se requiere una buena comprensión de los trade-off entre la velocidad del procesador, la precisión, el uso de acceso a memoria, la energía (usualmente provista por baterias) y otros recursos del nodo IoT. Todo debe ser considerado por el diseñador o el desarrollador de la aplicación. La creciente necesidad de experimentar con nodos IoT, ha llevado a los investigadores a recurrir a kits de desarrollo específicos cono Tensorflow Lite, Caffe, The Embedded Learning Library (ELL) de Microsoft o el kit de Nvidia Jetson Nano SDK, el de Intel Edison o el XaLogic XAPIZ3500 HAT compatible con plataformas Rasperry. Todos estan diseñado para experimentos en escenarios IoT. Un desafio adicional es que en el contexto de IoT puede haber varios flujos de datos que deben ser fusionados y procesados juntos, y estos flujos de datos normalmente tienen una correlación de espacio y tiempo que debe ser aprovechado por el aprendizaje automático. Se propone iniciar una línea de trabajo en el contexto del aprendizaje profundo y aprendizaje automático en IoT, para implementar los modelos de aprendizaje en dispositivos computacionalmente débiles como son los nodos IoT (edge-devices), que normalmente solo tienen kilobytes de memoria y procesadores de bajo consumo alimentados por baterias. Se busca entonces diseñar algoritmos de aprendizaje automático para dispositivos con recursos limitados, explorando técnicas como el uso de un número reducido de parámetros, optimización de acceso a memoria, descomposición de filtros de convolución en operaciones mas simples, utilización de parámetros y pesos pre-entrenados, utilización de operaciones en punto fijo para evitar multiplicaciones costosas, o proponiendo nuevos paradigmas de computación embebida para nodos IoT. [1] M. Mohammadi, A. Al-Fuqaha, S. Sorour, and M. Guizani, “Deep learning for IoT big data and streaming analytics: A survey,”IEEE Communications Surveys & Tutorials., vol. 20, no. 4, pp. 2923–2960, 4th Quart., 2018.
Adjuntos:
Marcas:

Titulo:	Gestión de datos faltantes en monitoreo ambiental casi en tiempo real
Área:	Gestión de datos
Nombre del proponente:	Angela Gorgoglione
Email de contacto:	agorgoglione@fing.edu.uy
Descripción de la propuesta:	El problema de los datos faltantes ocurre frecuentemente en el sector hidráulico-ambiental. En la última década, se han adoptado técnicas de aprendizaje automático para reconstruir series temporales ambientales [1]. En el marco del proyecto FSDA_1_2018_1_153967, financiado por ANII, con título “Evaluación temporal y espacial del impacto del cambio de cobertura del suelo sobre la calidad del agua: Cuenca del río Santa Lucía como cuenca piloto” [2,3], se desarrolló una metodología híbrida (con técnicas de aprendizaje automático alimentadas de información físicamente basada) para la imputación de diferentes variables ambientales. Basándonos en dicha metodología desarrollada en la cuenca piloto del río Santa Lucía, esta propuesta de tesis tiene los siguientes objetivos: - Extensión y validación de la metodología híbrida de imputación de datos meteorológicos, hidrológicos y de calidad de aguas a nivel nacional. - Creación de una base de datos multivariados que se auto-actualice a partir de las fuentes de datos nacionales disponibles. - Diseño y desarrollo de una aplicación informática que ejecute la metodología de imputación y permita a los usuarios visualizar la base de datos multivariados imputada y actualizada. El estudiante trabajará en un grupo mixto multidisciplinario que integra investigadores del Instituto de Mecánica de los Fluidos e Ingeniería Ambiental (IMFIA) y del Instituto de Computación (INCO), de la Facultad de Ingeniería (FIng), Universidad de la República (UdelaR). Se busca un estudiante con un interés y motivación en datos ambientales y en el desarrollo de aplicaciones donde el cuidado de los aspectos gráficos, estéticos e interactivos esté presente. Referencias: [1] Zhang, Y.; Thorburn, P.J. Handling missing data in near real-time environmental monitoring: A system and a review of selected methods. Future Generation Computer Systems 2022, 128, 63–72. [2] Gorgoglione, A.; Castro, A.; Rodríguez Núñez, R.; Chreties, C.; Fossati, M.; Pastorini, M.; Etcheverry, L. Evaluación temporal y espacial del impacto del cambio de cobertura del suelo sobre la calidad del agua: Cuenca del río Santa Lucía como cuenca piloto. Udelar.FI., 2021. [3] Rodríguez, R.; Pastorini, M.; Etcheverry, L.; Chreties, C.; Fossati, M.; Castro, A.; Gorgoglione, A. Water- Quality Data Imputation with a High Percentage of Missing Values: A Machine Learning Approach. Sustainability 2021, 13, 6318.
Adjuntos:	Propuesta Tesis Maestría CDAA.pdf
Marcas:

Titulo:	Cuantificación de contenido académico de la UdelaR almacenado fuera de la RAU.
Área:	Network Science
Nombre del proponente:	Eduardo Grampín
Email de contacto:	grampin@fing.edu.uy
Descripción de la propuesta:	Durante la pandemia del COVID-19, alentada por las herramientas de trabajo remoto, la generación de contenidos audiovisuales académicos en la UdelaR como videos de clases, charlas y seminarios, se disparó. Una parte de ese contenido se almacena en la RAU, básicamente en los sitios open.fing.edu.uy y multimedia.edu.uy. Sin embargo, existe la intuición que una fracción mucho más grande de este contenido está almacenado en repositorios globales, por ejemplo en youtube. En esta tesis se propone estudiar la posibilidad de cuantificar los contenidos almacenados fuera de la RAU, tanto en volumen como en dinámica de acceso. Para ello se propone en primer lugar caracterizar el contenido, de forma de contar con atributos de búsqueda que permitar estimar las magnitudes mencionadas.
Adjuntos:
Marcas:

Titulo:	Contenidos y jerarquía en Internet: un estudio basado en BGP.
Área:	Network Science
Nombre del proponente:	Eduardo Grampín
Email de contacto:	grampin@fing.edu.uy
Descripción de la propuesta:	La internet se mantiene conectada gracias a BGP, el protocolo de enrutamiento que permite que las distintas redes (Sistemas Autónomos, ASes) conozcan caminos hacia otras redes, utilizando la métrica AS_PATH (concatenación o vector de Números de Sistemas Autónomos, o ASN). En este sentido se dice que BGP es un protocolo "path vector". Otra característica de BGP es que la visibilidad de la información de enrutamiento está afectada por políticas, de forma tal que no existe una visión global de "la internet" representable con la metáfora del grafo G(V,E). BGP anuncia cambios utilizando mensajes de "UPDATE", y existen numerosos "vantage points" (puntos o sitios de vista) que se conectan a nivel de BGP con numerosos ASes y recopilan los mensajes. Esta información ha sido utilizada para diversos propósitos, incluyendo descubrimiento de topología. Por otro lado, la internet está transitando hacia una arquitectura fuertemente centralizada en algunos proveedores de servicios: Cloud Computing, CDNs (Content Delivery Networks), OTTs (Over The Top, como por ejemplo Netflix), e-commerce, que tienen conectividad ubicua (es decir, tienen puntos de presencia en muchos lugares del mundo, y publican información de BGP desde todos esos lugares). En esta tesis se propone utilizar los repositorios de trazas de BGP de los "vantage points" mencionados para cuantificar el peso de estos actores en la arquitectura actual de internet, y esbozar una idea de arquitectura. Algunos de los repositorios son los siguientes: https://www.caida.org/ http://www.routeviews.org/routeviews/ https://www.ripe.net/analyse/internet-measurements/routing-information-service-ris https://bgp.potaroo.net/
Adjuntos:
Marcas:

Titulo:	Corrección de Texto
Área:
Nombre del proponente:	Ignacio Ramírez, Aiala Rosá
Email de contacto:	nacho@fing.edu.uy
Descripción de la propuesta:	Resumen de la propuesta Se trata de aplicar métodos del estado del arte en corrección de textos a las transcripciones existentes de los documentos históricos del Archivo Berruti, la mayoría de ellas producidas por sistemas de transcripción automática (OCR). El estudiante deberá hacer una revisión exhaustiva de la bibliografía para familiarizarse y ponerse al día con los métodos existentes de corrección automática de texto. Deberá interiorizarse de los desarrollos previos llevados adelante en el marco del proyecto LUISA/Cruzar: enfoques aplicados, herramientas desarrolladas, recursos y lenguajes utilizados. Descripción: El Archivo Berruti (AB) consiste en más de 2 millones de imágenes de documentos generados por el aparato represivo antes, durante y después de la dictadura uruguaya (período 1972--1991). Las imágenes no son documentos escaneados comunes, sino escaneos de microfilms (rollos de negativos fotográficos diminutos) que a su vez eran fotografías de documentos físicos. Las imágenes tienen la particularidad de ser binarias, es decir, los pixeles son blanco o negro; no hay tonos de gris. El proyecto Cruzar es un esfuerzo colectivo de docentes de UdelaR, así como de algunos actores externos, cuyo objetivo es la interpretación y análisis histórico del pasado reciente en Uruguay. El subproyecto LUISA/Cruzar engloba al conjunto de aplicaciones cuyo fin es transcribir los textos que se encuentran en las imágenes para luego ingresarlos a una base de datos. Es sobre esta base de datos que otros investigadores (por ejemplo, historiadores, sociólogos) realizan consultas con el fin de obtener información útil sobre el pasado reciente. La transcripción de textos y, en especial, la transcripción automática de textos utilizando métodos computacionales (OCR -- Optical Character Recognition), genera una tasa relativamente alta de errores. Estos errores incluyen la sustitución de caracteres, y la aparición o falta de algunos de ellos. Claramente, este tipo de errores reducen la utilidad de los datos si no son corregidos. Es por eso que la corrección a posteriori de los textos transcritos es fundamental como paso previo a su ingreso a la base de datos. Existen diferentes técnicas para la corrección automática de textos en general. Se trabaja con enfoques basados en diccionarios y distancias entre palabras [4], en modelos de lenguaje [1]. Tambien es usual la aplicación de técnicas de traducción automática [3]. Estos enfoques se han aplicado en este proyecto, pero queda espacio para seguir investigando. Se trabajó con modelos de lenguaje de n-gramas, quedando pendiente el uso de modelos neuronales [2], por otro lado, se aplicaron técnicas de traducción automática estadística, pero no traducción basada en redes neuronales. En este caso particular, se trata principalmente de corregir errores introducidos por sistemas OCR, que tienen particularidades propias que los diferencian del tipo de errores que una persona puede cometer al escribir. Es por esto que es necesario estudiar el problema de la corrección automática de textos para este caso específico. Una referencia interesante sobre posprocesamiento de OCR es la competencia ICDAR (Competition on Post-OCR Text Correction) [5]. Para tener una idea de lo anterior, un aspecto clave a comprender es que los OCR cometen errores de transcripción en base a imágenes, mientras que las personas lo hacen en base a la sonoridad. Por ejemplo: una persona puede escribir “Pedro se fue a casar” cuando en realidad el texto correcto debía ser “Pedro se fue a cazar”. Cambiar “s” por “z” es un error relativamente común para un humano, pero no para un OCR, porque los símbolos “s” y “z” no se parecen. Sin embargo, mientras una persona difícilmente escribiría “Pedro se fue a cazer”, eso sería un error muy común para un OCR: los símbolos “a” y “e” suelen confundirse mucho (lo mismo con la “c” y la “o”, la “e” con la “c”, etc.). Otro aspecto interesante de los OCR es que es posible disponer de la probabilidad de que un OCR confunda una letra cualquiera [4] x por otra y, P(Y=y\|X=y). Este tipo de información puede ser explotada a la hora de buscar la palabra correcta que debió transcribir el OCR en caso de un error. Referencias [1] Dan Jurafsky and James H. Martin. 2021. Speech and Language Processing (3rd ed. draft). Capítulo 3: N-gram Language Models. [https://web.stanford.edu/~jurafsky/slp3/, último acceso: noviembre 2021] [2] Dan Jurafsky and James H. Martin. 2021. Speech and Language Processing (3rd ed. draft). Capítulo 7: Neural Networks and Neural Language Models. [https://web.stanford.edu/~jurafsky/slp3/, último acceso: noviembre 2021] [3] Dan Jurafsky and James H. Martin. 2021. Speech and Language Processing (3rd ed. draft). Capítulo 10: Machine Translation. [https://web.stanford.edu/~jurafsky/slp3/, último acceso: noviembre 2021] [4] Dan Jurafsky and James H. Martin. 2021. Speech and Language Processing (3rd ed. draft). Anexo B: Spelling Correction and the Noisy Channel. [https://web.stanford.edu/~jurafsky/slp3/, último acceso: noviembre 2021]
Adjuntos:	LUISA-CorreccionDeTextoTranscrito.pdf
Marcas:

Titulo:	Productividad en la cosecha forestal
Área:	Aprendizaje Automático
Nombre del proponente:	Victor Viana
Email de contacto:	victor.viana@fing.edu.uy
Descripción de la propuesta:	Descripción Las cosechadoras forestales modernas están equipadas con dispositivos automáticos de recolecciónde datos. Estos datos que tienen un formato estándar, que pueden ser extraídos y analizados en una computadora. Esto permite estudiar la productividad de la cosecha con miles de registros, en lugarde tener unos pocos cientos como sería posible registrando mediante métodos tradicionales(inspección visual o filmación). Sin embargo, los métodos analíticos tradicionales, como laregresión lineal, no son capaces de tratar este volumen de datos (o, al menos, no aprovechan todo elpotencial de los datos), por lo que hay que plantearse nuevos enfoques. Resultados esperados Esta propuesta pretende abordar esta carencia mencionada utilizando métodos de aprendizaje automático. La idea es estudiar cómo diferentes variables (diámetro a la alturadel pecho -DBH-, especie del árbol, turno de la cosecha y experiencia del operario) afectan ala productividad de una cosechadora forestal considerando datos de escenarios reales. El producto final será un algoritmo que permita predecir con cierto margen, la productividad (medidaen m³/h) de un frente de cosecha. Bibliografía Rossit, D. A., Olivera, A., Viana, V., & Broz, D. (2019). A Big Data approach to forestry harvesting productivity. Computers and Electronics in Agriculture, 161, 29-52. Eriksson, M., & Lindroos, O. (2014). Productivity of harvesters and forwarders in CTL operationsin northern Sweden based on large follow-up datasets. International Journal of Forest Engineering,25(3), 179-200.Liski, E., Jounela, P., Korpunen, H., Sosa, A., Lindroos, O., & Jylhä, P. (2020). Modeling theproductivity of mechanized CTL harvesting with statistical machine learning methods. InternationalJournal of Forest Engineering, 31(3), 253-262
Adjuntos:
Marcas:

Titulo:	Planificación de Riego
Área:	Aprendizaje Automático
Nombre del proponente:	Victor Viana
Email de contacto:	victor.viana@fing.edu.uy
Descripción de la propuesta:	Descripción Considerar el uso eficiente del agua en el riego es importante, mas cuando los recursos hídricos enel planeta son cada vez mas escasos. Las necesidades de riego en un cultivo depende del balancehídrico que se tenga, pudiéndose expresar este como la diferencia entre la evapotranspiración (ET)potencial de un cultivo y la tasa de precipitación (P) mas la variación de humedad en el suelo (DS).Se conoce como ET la combinación de dos procesos: Evaporación desde el suelo y desde la superficie cubierta por las plantas. Transpiración desde las hojas de las plantas. Por lo tanto el cálculo de la ET se usa para saber el agua que necesitan las plantas para su correctodesarrollo. La ET, se ve afectada por múltiples factores: climatológicos, características del suelo y factores vegetales. Resultados esperados Realizar una evaluación de los métodos de regresión paramétrica para obtener la evapotranspiración a partir del índice de vegetación y otras variables de un cultivo. Evaluar técnicas de aprendizaje automático para la obtención de la ET a partir de la radiación superficial y otras variables. Algunos datos serán extraídos de estacionesmeteorologicas cercanas a los lugares de estudio. Proponer un algoritmo de aprendizaje automático para generar mapas de ET para cierta región donde se desarrollen determinados cultivos. Bibliografía de referencia Gumiere, S. J., Camporese, M., Botto, A., Lafond, J. A., Paniconi, C., Gallichand, J., & Rousseau,A. N. (2020). Machine learning vs. physics-based modeling for real-time irrigation management.Frontiers in Water, 2, 8. Janani, M., & Jebakumar, R. (2019). A Study on Smart Irrigation Using Machine Learning. CellCellular Lif Sci J, 4(2), 000141.A. H. Blasi, M. A. Abbadi, and R. Al-Huweimel, “Machine Learning Approach for an AutomaticIrrigation System in Southern Jordan Valley”, Eng. Technol. Appl. Sci. Res., vol. 11, no. 1, pp.6609–6613, Feb. 2021.
Adjuntos:
Marcas: