ISC: Defensa de tesis de maestría de Leopoldo Agorio

Expositor: Leopoldo Agorio

Fecha: Viernes 27 de mayo

Hora: 11:00 AM (hora de Montevideo)

Lugar: Seminario del Instituto de Física (Facultad de Ingeniería, piso 7)

Pueden asistir de forma presencial, o alternativamente conectarse a través de zoom por el siguiente link.

https://salavirtual-udelar.zoom.us/j/5620097412

Meeting ID: 562 009 7412

El tribunal está integrado por Federico La Rocca y Pablo Monzón del IIE, y por Miguel Calvo Fullana en el MIT.

Se adjunta más abajo un resumen de la tesis.

Saludos cordiales,

Juan Bazerque

Los sistemas robóticos de enjambre o de múltiples agentes constituyen un área de investigación en creciente desarrollo. Para proveer infraestructura inalámbrica a demanda es necesario desplegar un equipo secundario de robots que garanticen la conectividad del enjambre. En este trabajo explicamos un algoritmo de posicionamiento óptimo para este equipo de robots, consistente en una etapa de optimización convexa sobre un modelo de canal probabilístico y una siguiente etapa de maximización de la conectividad de un grafo Laplaciano.

Para mostrar la ventaja de esta formulación matemática, llevamos a cabo tanto simulaciones como experimentos que fueron realizados con una flota de 10 Vehículos Aéreos no Tripulados (UAV por sus siglas en inglés) -ensamblados y configurados por nuestro grupo de investigación- basados en el modelo DJI Flame-Wheel y equipados con mini-computadoras Intel NUC a bordo y conectividad Wi-Fi. Para los experimentos realizados, los UAVs establecieron una red ad-hoc a través de nodos ROS multi-master en sistema operativo Ubuntu 18.

Existe a su vez otra familia de algoritmos autónomos de creciente interés conocida como aprendizaje por recompensas o Reinforcement Learning (RL), en los que el control a aplicar surge a partir de optimizar una señal de recompensa. En esta tesis estudiamos un problema de monitoreo, formulado a partir de restricciones de ocupación de regiones a monitorear por uno o múltiples agentes, que se lleva a un problema de RL en el que las variables duales actúan como señal de recompensa.

Para resolver el problema en el caso de un único agente monitoreando varias regiones, diseñamos una parametrización por medio de una red neuronal que procesa en paralelo las variables primales y las duales. Con esta novedad estructural, la red aprende a elegir políticas de navegación en función del grado de satisfacción de las restricciones, que se observa en tiempo real a través de las variables duales.

Para el caso de múltiples agentes, simulamos una versión simplificada del problema con un espacio de estados discreto y dos agentes, e imponiendo que los agentes tengan políticas distribuidas logramos un desempeño comparable al de una política centralizada.