Aprendizaje por recompensas
Diagrama de temas
-
Bienvenidos al curso de Aprendizaje por Recompensas 2021.
Este es un curso de posgrado en que abordaremos la teoría y algoritmos fundamentales de reinforcement learning, donde se destacan policy gradient y q-learning. Entretanto, estableceremos las conexiones naturales que este tema tiene con los procesos de Markov, la optimización, la programación dinámica y el control.
El curso se dictará a través de zoom los miércoles y viernes de 10:00a 11:30 hs, comenzando el miércoles 10 de marzo.
También se prevé guardar copias grabadas de als clases.
Los docentes del curso son José Lezama, Agustín Castellano, y quien escribe, Juan Bazerque.
Su aprobación constará de cuatro repartidos con ejercicios matemáticos y de programación, que deberán resolver en sus casas y entregar para su corrección. También habrá un examen final.
Por más detalles, adjunto el programa. En los próximos días agregaré más información.
Si tienen interés en el curso, por favor inscribanse a esta página EVA para que tengamos un estimativo del número de estudiantes, y para que les lleguen las noticias que enviemos al foro de novedades. Pueden también enviar sus preguntas o comentarios al foro de consultas y discusión.
Clases por zoom
https://us02web.zoom.us/j/88618370121?pwd=OTJHeWZwdFk1TEtkZnlLSU9DRGpvUT09
Meeting ID: 886 1837 0121
Passcode: 666459
Evaluación
Entergables
HW1 (15%): Markov decision processes
HW2 (15%): Policy gradinet - Reinforce
HW3 (15%): Policy gradient with baselines
HW4 (15%): Actor critic - Q-learning
Examen final 40%
Preguntas teóricas y programación de ejemplos
Examen oral por zoom de control de conocimientos
Bibliografía
Reinforcement Learning: An introduction " Second edition
Richard S. Sutton and Andrew G. Barto
Online: http://webdocs.cs.ualberta.ca/sutton/book/the-book.html
Algorithms for Reinforcement Learning
Csaba Szepesvari
-
Formularios de Inscripción y Evaluación
-
Enviar retroalimentación
-
Conceptos básicos sobre Multi-armed bandits: trade-offs entre exploración/explotación, regret, algoritmos e-greedy y UCB.
Lectura sugerida: Sutton&Barto Cap. 2
-
-
Las tareas del curso se van a realizar en Python Notebooks. Son un entorno interactivo en el que se puede correr código, escribir texto y ecuaciones y más.
Algunas formas de correr los Notebooks:
- Jupyter: permite correr notebooks desde la web; también hay instrucciones para correrlos localmente.
- Google Colab: permite correr notebooks desde la web.
- Binder: levanta y corre notebooks desde github.
-
-
-
-
-
-
-
Como cierre del curso en la última semana hicimos una introducción al estado del arte.
En la clase del miércoles vimos los métodos basados en trust regions TRPO y PPO.
En la clase del viernes revisamos tres papers con métodos de safe learning, meta learning y con una aplicación de robótica.