(ver el adjunto por más info)El estudiante deberá familiarizarse y ponerse al día con los métodos existentes de Análisis deEstructura de Documentos (Document Layout Analysis). Deberá hacer una revisión exhaustivade la bibliografía, e implementar por lo menos tres métodos de referencia en el área. Laimplementación deberá ser realizada en el lenguaje Python, de modo de poder integrarse a lasherramientas actualmente existentes en el proyecto LUISA/Cruzar.
Formación específica recomendada:○ Competencias:■ Python■ Aprendizaje Automático○ Cursos:■ Tratamiento de Imágenes por Computadora■ Aprendizaje Automático■ DLVIS
Área: Procesamiento de imágenesSubárea: Procesamiento y análisis de imágenes de documentos de textoTema: Limpieza, alineamiento y rectificación de documentos escaneadosTutor: Ignacio RamírezFormación específica recomendada:○ Competencias:■ Python■ Aprendizaje Automático○ Cursos:■ Tratamiento de Imágenes por Computadora■ Aprendizaje Automático■ DLVISResumen de la propuesta:El estudiante deberá familiarizarse y ponerse al día con los métodos existentes depreprocesamiento de documentos que hacen a las primeras etapas en el Análisis de Estructurade Documentos (Document Layout Analysis). Deberá hacer una revisión exhaustiva de labibliografía, e implementar por lo menos tres métodos de referencia en el área. Laimplementación deberá ser realizada en el lenguaje Python, de modo de poder integrarse a lasherramientas actualmente existentes en el proyecto LUISA/Cruzar.
Lo siguiente es tomado de economipedia.com:"La política fiscal es una disciplina de la política económica centrada en la gestión de los recursos de un Estado y su Administración. Está en manos del Gobierno del país, quién controla los niveles de gasto e ingresos mediante variables como los impuestos y el gasto público para mantener un nivel de estabilidad en los países."
Los problemas de la política económica involucran decisiones complejas, que toman en cuenta una cantidad enorme de variables, y consecuencias críticas a corto, mediano y largo plazo. En ese contexto, y dado el éxito de los métodos de RL y DRL en este tipo de escenarios, la idea de aplicarlos para la toma de decisiones económicas está tomando mucha fuerza (ver referencias al final del documento adjunto).La idea es hacer una revisión del estado del arte, elegir por lo menos tres métodos, implementarlos y ensayarlos en un escenario sintético predefinido (por ejemplo, en el trabajo deZheng et. al (2021) se desarrolló un simulador para probar los algoritmos que está disponiblepara el publico en: https://github.com/salesforce/ai-economist -- ver tambiénhttps://einstein.ai/the-ai-economist).
Deep-learning, junto a un gran número de algoritmos de aprendizaje automático han tenido recientemente un gran éxito en una variedad de dominios de aplicaciones, incluyendo visión por computadora, control, reconocimiento de patrones,procesamiento de lenguaje natural, y análisis de big data, entre otros. Ejemplos de ellos se pueden encontrar en [1].Entrenar un modelo de aprendizaje automático requiere grandes recursos de hardware y computación. Es altamente caro debido a la cantidad de parámetros que necesitan ser refinados iterativamente durante múltiples períodos de tiempo.Y la inferencia es computacionalmente costosa debido a la potencial alta dimensionalidad de los datos de entrada.Actualmente se ha convertido en un desafío importante el poder adaptar los altos requisitos de recursos del aprendizaje automático (principalmente deep-learning) en hardware y firmware con reducidos recursos informáticos (edge-devices nodes en el contexto IoT)Diseñar un algoritmo de aprendizaje automático eficiente o seleccionar el algoritmo correcto para una aplicación dada es un gran desafío debido al gran número de decisiones de hiperparámetros y además se requiere una buena comprensión de los trade-off entre la velocidad del procesador, la precisión, el uso de acceso a memoria, la energía (usualmente provista por baterias) y otros recursos del nodo IoT.Todo debe ser considerado por el diseñador o el desarrollador de la aplicación.La creciente necesidad de experimentar con nodos IoT, ha llevado a los investigadores a recurrir a kits de desarrollo específicos cono Tensorflow Lite, Caffe, The Embedded Learning Library (ELL) de Microsoft o el kit de Nvidia Jetson Nano SDK, el de Intel Edison o el XaLogic XAPIZ3500 HAT compatible con plataformas Rasperry. Todos estan diseñado para experimentos en escenarios IoT.Un desafio adicional es que en el contexto de IoT puede haber varios flujos de datos que deben ser fusionados y procesados juntos, y estos flujos de datos normalmente tienen una correlación de espacio y tiempo que debe seraprovechado por el aprendizaje automático.Se propone iniciar una línea de trabajo en el contexto del aprendizaje profundo y aprendizaje automático en IoT, para implementar los modelos de aprendizaje en dispositivos computacionalmente débiles como son los nodos IoT (edge-devices), que normalmente solo tienen kilobytes de memoria y procesadores de bajo consumo alimentados por baterias.Se busca entonces diseñar algoritmos de aprendizaje automático para dispositivos con recursos limitados, explorando técnicas como el uso de un número reducido de parámetros, optimización de acceso a memoria, descomposición de filtros de convolución en operaciones mas simples, utilización de parámetros y pesos pre-entrenados, utilización de operaciones en punto fijo para evitar multiplicaciones costosas, o proponiendo nuevos paradigmas de computación embebida para nodos IoT. [1] M. Mohammadi, A. Al-Fuqaha, S. Sorour, and M. Guizani, “Deep learning for IoT big data and streaming analytics: A survey,”IEEE Communications Surveys & Tutorials., vol. 20, no. 4, pp. 2923–2960, 4th Quart., 2018.
El problema de los datos faltantes ocurre frecuentemente en el sector hidráulico-ambiental. En la última década, se han adoptado técnicas de aprendizaje automático para reconstruir series temporales ambientales [1]. En el marco del proyecto FSDA_1_2018_1_153967, financiado por ANII, con título “Evaluación temporaly espacial del impacto del cambio de cobertura del suelo sobre la calidad del agua: Cuenca del río Santa Lucía como cuenca piloto” [2,3], se desarrolló una metodología híbrida (con técnicas de aprendizaje automático alimentadas de información físicamente basada) para la imputación de diferentes variablesambientales. Basándonos en dicha metodología desarrollada en la cuenca piloto del río Santa Lucía, esta propuesta detesis tiene los siguientes objetivos:
- Extensión y validación de la metodología híbrida de imputación de datos meteorológicos,hidrológicos y de calidad de aguas a nivel nacional.
- Creación de una base de datos multivariados que se auto-actualice a partir de las fuentes de datosnacionales disponibles.
- Diseño y desarrollo de una aplicación informática que ejecute la metodología de imputación ypermita a los usuarios visualizar la base de datos multivariados imputada y actualizada.
El estudiante trabajará en un grupo mixto multidisciplinario que integra investigadores del Instituto deMecánica de los Fluidos e Ingeniería Ambiental (IMFIA) y del Instituto de Computación (INCO), de laFacultad de Ingeniería (FIng), Universidad de la República (UdelaR).Se busca un estudiante con un interés y motivación en datos ambientales y en el desarrollo deaplicaciones donde el cuidado de los aspectos gráficos, estéticos e interactivos esté presente.
Referencias:[1] Zhang, Y.; Thorburn, P.J. Handling missing data in near real-time environmental monitoring: A systemand a review of selected methods. Future Generation Computer Systems 2022, 128, 63–72.[2] Gorgoglione, A.; Castro, A.; Rodríguez Núñez, R.; Chreties, C.; Fossati, M.; Pastorini, M.; Etcheverry, L.Evaluación temporal y espacial del impacto del cambio de cobertura del suelo sobre la calidad del agua:Cuenca del río Santa Lucía como cuenca piloto. Udelar.FI., 2021.[3] Rodríguez, R.; Pastorini, M.; Etcheverry, L.; Chreties, C.; Fossati, M.; Castro, A.; Gorgoglione, A. Water-Quality Data Imputation with a High Percentage of Missing Values: A Machine Learning Approach.Sustainability 2021, 13, 6318.
Durante la pandemia del COVID-19, alentada por las herramientas de trabajo remoto, la generación de contenidos audiovisuales académicos en la UdelaR como videos de clases, charlas y seminarios, se disparó. Una parte de ese contenido se almacena en la RAU, básicamente en los sitios open.fing.edu.uy y multimedia.edu.uy. Sin embargo, existe la intuición que una fracción mucho más grande de este contenido está almacenado en repositorios globales, por ejemplo en youtube. En esta tesis se propone estudiar la posibilidad de cuantificar los contenidos almacenados fuera de la RAU, tanto en volumen como en dinámica de acceso. Para ello se propone en primer lugar caracterizar el contenido, de forma de contar con atributos de búsqueda que permitar estimar las magnitudes mencionadas.
La internet se mantiene conectada gracias a BGP, el protocolo de enrutamiento que permite que las distintas redes (Sistemas Autónomos, ASes) conozcan caminos hacia otras redes, utilizando la métrica AS_PATH (concatenación o vector de Números de Sistemas Autónomos, o ASN). En este sentido se dice que BGP es un protocolo "path vector". Otra característica de BGP es que la visibilidad de la información de enrutamiento está afectada por políticas, de forma tal que no existe una visión global de "la internet" representable con la metáfora del grafo G(V,E). BGP anuncia cambios utilizando mensajes de "UPDATE", y existen numerosos "vantage points" (puntos o sitios de vista) que se conectan a nivel de BGP con numerosos ASes y recopilan los mensajes. Esta información ha sido utilizada para diversos propósitos, incluyendo descubrimiento de topología. Por otro lado, la internet está transitando hacia una arquitectura fuertemente centralizada en algunos proveedores de servicios: Cloud Computing, CDNs (Content Delivery Networks), OTTs (Over The Top, como por ejemplo Netflix), e-commerce, que tienen conectividad ubicua (es decir, tienen puntos de presencia en muchos lugares del mundo, y publican información de BGP desde todos esos lugares). En esta tesis se propone utilizar los repositorios de trazas de BGP de los "vantage points" mencionados para cuantificar el peso de estos actores en la arquitectura actual de internet, y esbozar una idea de arquitectura. Algunos de los repositorios son los siguientes: https://www.caida.org/ http://www.routeviews.org/routeviews/ https://www.ripe.net/analyse/internet-measurements/routing-information-service-ris https://bgp.potaroo.net/
Resumen de la propuesta
El estudiante deberá hacer una revisión exhaustiva de la bibliografía para familiarizarse y ponerse al día con los métodos existentes de corrección automática de texto. Deberá interiorizarse de los desarrollos previos llevados adelante en el marco del proyecto LUISA/Cruzar: enfoques aplicados, herramientas desarrolladas, recursos y lenguajes utilizados.
Descripción:
El Archivo Berruti (AB) consiste en más de 2 millones de imágenes de documentos generados por el aparato represivo antes, durante y después de la dictadura uruguaya (período 1972--1991). Las imágenes no son documentos escaneados comunes, sino escaneos de microfilms (rollos de negativos fotográficos diminutos) que a su vez eran fotografías de documentos físicos. Las imágenes tienen la particularidad de ser binarias, es decir, los pixeles son blanco o negro; no hay tonos de gris.
El proyecto Cruzar es un esfuerzo colectivo de docentes de UdelaR, así como de algunos actores externos, cuyo objetivo es la interpretación y análisis histórico del pasado reciente en Uruguay. El subproyecto LUISA/Cruzar engloba al conjunto de aplicaciones cuyo fin es transcribir los textos que se encuentran en las imágenes para luego ingresarlos a una base de datos. Es sobre esta base de datos que otros investigadores (por ejemplo, historiadores, sociólogos) realizan consultas con el fin de obtener información útil sobre el pasado reciente.
La transcripción de textos y, en especial, la transcripción automática de textos utilizando métodos computacionales (OCR -- Optical Character Recognition), genera una tasa relativamente alta de errores. Estos errores incluyen la sustitución de caracteres, y la aparición o falta de algunos de ellos. Claramente, este tipo de errores reducen la utilidad de los datos si no son corregidos. Es por eso que la corrección a posteriori de los textos transcritos es fundamental como paso previo a su ingreso a la base de datos.
Existen diferentes técnicas para la corrección automática de textos en general. Se trabaja con enfoques basados en diccionarios y distancias entre palabras [4], en modelos de lenguaje [1]. Tambien es usual la aplicación de técnicas de traducción automática [3]. Estos enfoques se han aplicado en este proyecto, pero queda espacio para seguir investigando. Se trabajó con modelos de lenguaje de n-gramas, quedando pendiente el uso de modelos neuronales [2], por otro lado, se aplicaron técnicas de traducción automática estadística, pero no traducción basada en redes neuronales.
En este caso particular, se trata principalmente de corregir errores introducidos por sistemas OCR, que tienen particularidades propias que los diferencian del tipo de errores que una persona puede cometer al escribir. Es por esto que es necesario estudiar el problema de la corrección automática de textos para este caso específico. Una referencia interesante sobre posprocesamiento de OCR es la competencia ICDAR (Competition on Post-OCR Text Correction) [5].
Para tener una idea de lo anterior, un aspecto clave a comprender es que los OCR cometen errores de transcripción en base a imágenes, mientras que las personas lo hacen en base a la sonoridad. Por ejemplo: una persona puede escribir “Pedro se fue a casar” cuando en realidad el texto correcto debía ser “Pedro se fue a cazar”.
Cambiar “s” por “z” es un error relativamente común para un humano, pero no para un OCR, porque los símbolos “s” y “z” no se parecen. Sin embargo, mientras una persona difícilmente escribiría “Pedro se fue a cazer”, eso sería un error muy común para un OCR: los símbolos “a” y “e” suelen confundirse mucho (lo mismo con la “c” y la “o”, la “e” con la “c”, etc.).
Otro aspecto interesante de los OCR es que es posible disponer de la probabilidad de que un OCR confunda una letra cualquiera [4] x por otra y, P(Y=y|X=y). Este tipo de información puede ser explotada a la hora de buscar la palabra correcta que debió transcribir el OCR en caso de un error.
Referencias
[1] Dan Jurafsky and James H. Martin. 2021. Speech and Language Processing (3rd ed. draft). Capítulo 3: N-gram Language Models. [https://web.stanford.edu/~jurafsky/slp3/, último acceso: noviembre 2021]
[2] Dan Jurafsky and James H. Martin. 2021. Speech and Language Processing (3rd ed. draft). Capítulo 7: Neural Networks and Neural Language Models. [https://web.stanford.edu/~jurafsky/slp3/, último acceso: noviembre 2021]
[3] Dan Jurafsky and James H. Martin. 2021. Speech and Language Processing (3rd ed. draft). Capítulo 10: Machine Translation. [https://web.stanford.edu/~jurafsky/slp3/, último acceso: noviembre 2021]
[4] Dan Jurafsky and James H. Martin. 2021. Speech and Language Processing (3rd ed. draft). Anexo B: Spelling Correction and the Noisy Channel. [https://web.stanford.edu/~jurafsky/slp3/, último acceso: noviembre 2021]
Descripción
Considerar el uso eficiente del agua en el riego es importante, mas cuando los recursos hídricos enel planeta son cada vez mas escasos. Las necesidades de riego en un cultivo depende del balancehídrico que se tenga, pudiéndose expresar este como la diferencia entre la evapotranspiración (ET)potencial de un cultivo y la tasa de precipitación (P) mas la variación de humedad en el suelo (DS).Se conoce como ET la combinación de dos procesos:
Por lo tanto el cálculo de la ET se usa para saber el agua que necesitan las plantas para su correctodesarrollo. La ET, se ve afectada por múltiples factores: climatológicos, características del suelo y factores vegetales.
Resultados esperados
Bibliografía de referencia