Diagrama de temas

  • Aprendizaje por Recompensas

    Bienvenidos al curso de Aprendizaje por Recompensas 2021.

    Este es un curso de posgrado en que abordaremos la teoría y  algoritmos fundamentales de reinforcement learning, donde se destacan policy gradient y q-learning. Entretanto, estableceremos las conexiones naturales que este tema tiene con los procesos de Markov, la optimización, la programación dinámica y el control. 

    El curso se dictará a través de zoom los miércoles y viernes de 10:00a 11:30 hs, comenzando el miércoles 10 de marzo. 

    También se prevé guardar copias grabadas de als clases.

    Los docentes del curso son José Lezama, Agustín Castellano, y quien escribe, Juan Bazerque.

    Su aprobación constará de cuatro repartidos con ejercicios matemáticos y de programación, que deberán resolver en sus casas y entregar para su corrección. También habrá un examen final.

    Por más detalles, adjunto el programa. En los próximos días  agregaré más información.

    Si tienen interés en el curso, por favor inscribanse a esta página EVA para que tengamos un estimativo del número de estudiantes, y para que les lleguen las noticias que enviemos al foro de novedades. Pueden también enviar sus preguntas o comentarios al foro de consultas y discusión.

     

    Clases por zoom

    https://us02web.zoom.us/j/88618370121?pwd=OTJHeWZwdFk1TEtkZnlLSU9DRGpvUT09

    Meeting ID: 886 1837 0121

    Passcode: 666459

    Evaluación

     

    Entergables 

       HW1 (15%): Markov decision processes 

       HW2 (15%): Policy gradinet - Reinforce

       HW3 (15%): Policy gradient with baselines

       HW4 (15%): Actor critic - Q-learning

    Examen final  40%

       Preguntas teóricas y programación de ejemplos

       Examen oral por zoom de control de conocimientos

    Bibliografía

     

    Reinforcement Learning: An introduction " Second edition

    Richard S. Sutton and Andrew G. Barto

    Online: http://webdocs.cs.ualberta.ca/sutton/book/the-book.html

    Algorithms for Reinforcement Learning

    Csaba Szepesvari

    Online:  https://sites.ualberta.ca/~szepesva/RLBook.html

  • Tema 2: Bandits

    Restringido No disponible hasta que cualquiera de:
    • Eres un Profesor Responsable
    • Eres un Profesor
    • Eres un Estudiante

    Conceptos básicos sobre Multi-armed bandits: trade-offs entre exploración/explotación, regret, algoritmos e-greedy y UCB.

    Lectura sugerida: Sutton&Barto Cap. 2

  • Tema 3: Markov Decission Processes (MDPs)

    Restringido No disponible hasta que cualquiera de:
    • Eres un Estudiante
    • Eres un Profesor
    • Eres un Profesor Responsable
  • Entregable 1: MDPs

    Restringido No disponible hasta que: Eres un Estudiante

    Las tareas del curso se van a realizar en Python Notebooks. Son un entorno interactivo en el que se puede correr código, escribir texto y ecuaciones y más.

    Algunas formas de correr los Notebooks:

    • Jupyter: permite correr notebooks desde la web; también hay instrucciones para correrlos localmente.
    • Google Colab: permite correr notebooks desde la web.
    • Binder: levanta y corre notebooks desde github.

  • Tema 4: Function Approximation

    Restringido No disponible hasta que cualquiera de:
    • Eres un Profesor Responsable
    • Eres un Profesor
    • Eres un Estudiante
  • Tema 5: Policy Gradient

    Restringido No disponible hasta que: Eres un Estudiante
  • Entregable 2: Policy Gradient

    Restringido No disponible hasta que: Eres un Estudiante
  • Tema 6: Value Function

    Restringido No disponible hasta que: Eres un Estudiante
  • Entregable 3: PG + Baselines

    Restringido No disponible hasta que: Eres un Estudiante
  • Tema 8: Q-learning

    Restringido No disponible hasta que: Eres un Estudiante
  • Entregable 4: Actor-critic, Q-learning

    Restringido No disponible hasta que: Eres un Estudiante
  • Introducción al estado del arte

    Como cierre del curso en la última semana hicimos una introducción al estado del arte.

    En la clase del miércoles vimos los métodos basados en trust regions TRPO y PPO.

    En la clase del viernes revisamos tres papers con métodos de safe learning, meta learning y con una aplicación de robótica.