Diagrama de temas

  • Aprendizaje Profundo por Refuerzo

    Deep Reinforcement Learning

    El objetivo del curso es presentar una introducción al reinforcement learning (aprendizaje por refuerzos) y al deep reinforcement learning, de forma que los estudiantes sean capaces de implementar, aplicar y evaluar algoritmos relevantes utilizando la herramienta Tensorflow. El reinforcement learning es un área del aprendizaje de máquinas cuyo objetivo es determinar qué acciones debe escoger un agente en un entorno dado con el fin de maximizar alguna noción de "recompensa" o premio acumulado. El deep reinforcement learning es una sub-área del reinforcement learning en donde redes neuronales (entrenadas mediante técnicas de aprendizaje profundo) son utilizadas como funciones aproximantes por algoritmos de reinforcement learning. El aprendizaje profundo por refuerzo tiene potencialmente una gran cantidad de aplicaciones. Cualquier aplicación en la que necesite encontrar la mejor política para tomar una acción con el fin de maximizar un objetivo dado en contexto complejo (difícil de modelar) es un buen candidato de aplicación. Algunos ejemplos son: entrenamiento de robots o tareas robóticas, control del tráfico urbano, administración de sistemas de energía con fuentes y configuraciones de generación múltiples, piloto automático de vehículos autónomos, comercio con estrategias óptimas.

    El curso cubre dos partes. La primera es una introducción a los problemas de predicción y control utilizando técnicas del reinforcement learning. La segunda, aborda el deep reinforcement learning, en particular los recientes avances en el área. El objetivo es cubrir los aspectos teóricos básicos del aprendizaje por refuerzos, y los principales desarrollos algorítmicos que han aparecido en los últimos años en el área de deep reinforcement learning. El curso busca presentar a los estudiantes los principales aspectos de modelado, algorítmicos y de optimización de forma de que ellos mismos sean capaces de implementar sus propios modelos.

    Keywords: Aprendizaje por Refuerzo, Aprendizaje Profundo, Deep Reinforcement Learning


    Curso de Posgrado y Actualización 2019


    Temario

    Se intentarán cubrir los siguientes temas: procesos de decisión Markovianos, planeamiento via programación dinámica, model-free prediction and control, policy gradient methods y el dilema de la explotación/exploración. Posibles aplicaciones a implementar incluyen: entrenar agentes para que sean capaces de aprender a jugar juegos de mesa y videojuegos.

    Tentativamente,

    1) Introducción a los paradigmas de reinforcement learning, repasando los principales fundamentos teóricos.
    2) Introducción al deep reinforcement learning. (DQN, deep policy gradients, A3C)
    3) Introducción a las técnicas básicas de optimización para redes neuronales y su aplicación al reinforcement learning.
    4) Breve introducción a Tensorflow.
    5) Aplicación de algoritmos de reinforcement learning a entornos con dinámicas complejas


    Forma de evaluación

    La evaluación consiste en la entrega de una serie de ejercicios obligatorios en máquina y la entrega de respuestas a preguntas teóricas.


    Conocimientos Previos

    Exigidos:
    • Cálculo diferencial e integral
    • Álgebra Lineal
    • Probabilidad y estadística
    • Programación (conocimientos sólidos en al menos un lenguaje de programación)
    Recomendados:
    • Familiaridad con conceptos básicos de reconocimiento de patrones, aprendizaje automático, optimización
    • programación en lenguaje Python.
    • Conocimientos básicos de Deep Learning (aunque no es imprescindible).
      Para un repaso puede ser útil ver los videos del curso Aprendizaje Profundo para Visión Artificial 2018 [enlace]


    Bibliografía

    • Sutton, Richard S., and Andrew G. Barto. Reinforcement learning: An introduction. MIT press, 2018. Disponible en  [pdf] 

    Bibliografía adicional:

    • Goodfellow, I., Bengio, Y., Courville, A., & Bengio, Deep learning. MIT press, 2016

    • Szepesvári, C., Algorithms for reinforcement learning. Synthesis lectures on artificial intelligence and machine learning, Morgan & Claypool, 2010

    • Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A.A., Veness, J., Bellemare, M.G., Graves, A., Riedmiller, M., Fidjeland, A.K., Ostrovski, G. and Petersen, S., 2015. Human-level control through deep reinforcement learning. Nature, 518(7540), p.529.
    • Abadi, M., Barham, P., Chen, J., Chen, Z., Davis, A., Dean, J., Devin, M., Ghemawat, S., Irving, G., Isard, M. and Kudlur, M., 2016, November. Tensorflow: a system for large-scale machine learning. In OSDI (Vol. 16, pp. 265-283).
    • LeCun, Y., Bengio, Y. and Hinton, G., 2015. Deep learning. nature, 521(7553), p.436.
    • Silver, D., Huang, A., Maddison, C.J., Guez, A., Sifre, L., Van Den Driessche, G., Schrittwieser, J., Antonoglou, I., Panneershelvam, V., Lanctot, M. and Dieleman, S., 2016. Mastering the game of Go with deep neural networks and tree search. nature, 529(7587), p.484.

    Información general del curso 2019

    Horarios y salón de clase
    • Lunes a Viernes de 9:00 hs a 12:00 hs, Salón: B12 (en el Aulario "J.L. Massera") - Facultad de Ingeniería, UdelaR
    • Inicio-Fin: Lunes 25 de Febrero a Viernes 1ero de Marzo
    • Curso de Posgrado/Actualización. Inscripción[Posgraddo] [Actualización]
      Modalidad posgrado: Dirigido a estudiantes inscriptos en programas de maestría/doctorado en la UdelaR (no tiene costo)[pdf]
      Modalidad actualización: Dirigido a profesionales del área de la ingeniería eléctrica, computación y ramas afines (costo 3000 UI) [pdf]
    • Créditos: 5 (posgrado)
    • Consultas: José Lezama <jlezama@fing.edu.uy>


  • Clase 1

    • Introducción al Aprendizaje Profundo por Refuerzo

    • Icono Recurso
      Diapositivas Clase 1 Archivo
      No disponible hasta que: se pertenezca al grupo Estudiantes
  • Clase 2

    • Exploración y Explotación
    • Procesos de Decisión de Markov
    • Programación Dinámica

    • Icono Recurso
      Diapositivas Clase 2.1 Archivo
      No disponible hasta que: se pertenezca al grupo Estudiantes
    • Icono Recurso
      Diapositivas Clase 2.2 Archivo
      No disponible hasta que: se pertenezca al grupo Estudiantes
  • Clase 3

    • Predicción y Control sin modelo
    • Fundamentos de Aprendizaje Profundo

    • Icono Recurso
      Diapositivas Clase 3.1 Archivo
      No disponible hasta que: se pertenezca al grupo Estudiantes
    • Icono Recurso
      Diapositivas Clase 3.2 Archivo
      No disponible hasta que: se pertenezca al grupo Estudiantes
  • Clase 4

    • Aproximación de Funciones

    • Icono Recurso
      Diapositivas Clase 4 Archivo
      No disponible hasta que: se pertenezca al grupo Estudiantes
  • Clase 5

    • Búsqueda de Política Directa y Actor-Crítico
    • Modelos y Planeamiento
    • AlphaGo y AlphaGo Zero

    • Icono Recurso
      Diapositivas Clase 5.1 Archivo
      No disponible hasta que: se pertenezca al grupo Estudiantes
    • Icono Recurso
      Diapositivas Clase 5.2 Archivo
      No disponible hasta que: se pertenezca al grupo Estudiantes
  • Entregables

    • Icono Tarea
      Entregables DRL 2019 Tarea
      No disponible hasta que: se pertenezca al grupo Estudiantes