Curso: Aprendizaje por recompensas

Perfilado de sección

Seleccionar sección Aprendizaje por Recompensas

Colapsar Expandir
Aprendizaje por Recompensas

Colapsar todo Expandir todo
Bienvenidos al curso de Aprendizaje por Recompensas 2021.

Este es un curso de posgrado en que abordaremos la teoría y algoritmos fundamentales de reinforcement learning, donde se destacan policy gradient y q-learning. Entretanto, estableceremos las conexiones naturales que este tema tiene con los procesos de Markov, la optimización, la programación dinámica y el control.

El curso se dictará a través de zoom los miércoles y viernes de 10:00a 11:30 hs, comenzando el miércoles 10 de marzo.

También se prevé guardar copias grabadas de als clases.

Los docentes del curso son José Lezama, Agustín Castellano, y quien escribe, Juan Bazerque.

Su aprobación constará de cuatro repartidos con ejercicios matemáticos y de programación, que deberán resolver en sus casas y entregar para su corrección. También habrá un examen final.

Por más detalles, adjunto el programa. En los próximos días agregaré más información.

Si tienen interés en el curso, por favor inscribanse a esta página EVA para que tengamos un estimativo del número de estudiantes, y para que les lleguen las noticias que enviemos al foro de novedades. Pueden también enviar sus preguntas o comentarios al foro de consultas y discusión.

Clases por zoom

https://us02web.zoom.us/j/88618370121?pwd=OTJHeWZwdFk1TEtkZnlLSU9DRGpvUT09

Meeting ID: 886 1837 0121

Passcode: 666459

Evaluación

Entergables

HW1 (15%): Markov decision processes

HW2 (15%): Policy gradinet - Reinforce

HW3 (15%): Policy gradient with baselines

HW4 (15%): Actor critic - Q-learning

Examen final 40%

Preguntas teóricas y programación de ejemplos

Examen oral por zoom de control de conocimientos

Bibliografía

Reinforcement Learning: An introduction " Second edition

Richard S. Sutton and Andrew G. Barto

Online: http://webdocs.cs.ualberta.ca/sutton/book/the-book.html

Algorithms for Reinforcement Learning

Csaba Szepesvari

Online: https://sites.ualberta.ca/~szepesva/RLBook.html
- Seleccionar actividad Programa de la assignatura
  
  Programa de la assignatura Archivo
- Seleccionar actividad Formularios de Inscripción y Evaluación
  
  Los estudiantes deben
  
  Marcar como hecha
  
  Formularios de Inscripción y Evaluación
- Seleccionar actividad Formulario de Inscripción
  
  Formulario de Inscripción Encuesta
- Seleccionar actividad Formulario de evaluación
  
  Formulario de evaluación Encuesta
  
  Los estudiantes deben
  
  Enviar retroalimentación
Seleccionar sección Foros

Colapsar Expandir
Foros
- Seleccionar actividad Novedades
  
  Novedades Foro
- Seleccionar actividad Foro de consultas y discusión
  
  Foro de consultas y discusión
Seleccionar sección Tema 2: Bandits

Colapsar Expandir
Tema 2: Bandits
Conceptos básicos sobre Multi-armed bandits: trade-offs entre exploración/explotación, regret, algoritmos e-greedy y UCB.

Lectura sugerida: Sutton&Barto Cap. 2
No disponible hasta que cualquiera de: Eres un Profesor Responsable ...

No disponible hasta que cualquiera de:

Eres un Profesor Responsable

Eres un Profesor

Eres un Estudiante
Seleccionar sección Tema 3: Markov Decission Processes (MDPs)

Colapsar Expandir
Tema 3: Markov Decission Processes (MDPs)
No disponible hasta que cualquiera de: Eres un Estudiante ...

No disponible hasta que cualquiera de:

Eres un Estudiante

Eres un Profesor

Eres un Profesor Responsable
Seleccionar sección Entregable 1: MDPs

Colapsar Expandir
Entregable 1: MDPs
Las tareas del curso se van a realizar en Python Notebooks. Son un entorno interactivo en el que se puede correr código, escribir texto y ecuaciones y más.

Algunas formas de correr los Notebooks:

Jupyter: permite correr notebooks desde la web; también hay instrucciones para correrlos localmente.

Google Colab: permite correr notebooks desde la web.

Binder: levanta y corre notebooks desde github.
No disponible hasta que: Eres un Estudiante
Seleccionar sección Tema 4: Function Approximation

Colapsar Expandir
Tema 4: Function Approximation
No disponible hasta que cualquiera de: Eres un Profesor Responsable ...

No disponible hasta que cualquiera de:

Eres un Profesor Responsable

Eres un Profesor

Eres un Estudiante
Seleccionar sección Tema 5: Policy Gradient

Colapsar Expandir
Tema 5: Policy Gradient

No disponible hasta que: Eres un Estudiante
Seleccionar sección Entregable 2: Policy Gradient

Colapsar Expandir
Entregable 2: Policy Gradient

No disponible hasta que: Eres un Estudiante
Seleccionar sección Tema 6: Value Function

Colapsar Expandir
Tema 6: Value Function

Videos: https://iie.fing.edu.uy/~jlezama/APR2021/

No disponible hasta que: Eres un Estudiante
Seleccionar sección Entregable 3: PG + Baselines

Colapsar Expandir
Entregable 3: PG + Baselines

No disponible hasta que: Eres un Estudiante
Seleccionar sección Tema 7: Actor-Critic y Policy Gradient determinístico

Colapsar Expandir
Tema 7: Actor-Critic y Policy Gradient determinístico
Videos: https://iie.fing.edu.uy/~jlezama/APR2021/
- Seleccionar actividad Slides - Actor-Critic y DPG
  
  Slides - Actor-Critic y DPG Archivo
Seleccionar sección Tema 8: Q-learning

Colapsar Expandir
Tema 8: Q-learning

No disponible hasta que: Eres un Estudiante
Seleccionar sección Entregable 4: Actor-critic, Q-learning

Colapsar Expandir
Entregable 4: Actor-critic, Q-learning

No disponible hasta que: Eres un Estudiante
Seleccionar sección Introducción al estado del arte

Colapsar Expandir
Introducción al estado del arte
Como cierre del curso en la última semana hicimos una introducción al estado del arte.
En la clase del miércoles vimos los métodos basados en trust regions TRPO y PPO.
En la clase del viernes revisamos tres papers con métodos de safe learning, meta learning y con una aplicación de robótica.
- Seleccionar actividad Clase del 2 de junio
  
  Clase del 2 de junio URL
  
  Los estudiantes deben
  
  Marcar como hecha
- Seleccionar actividad Transparencias TRPO y PPO
  
  Transparencias TRPO y PPO Archivo
  
  Los estudiantes deben
  
  Marcar como hecha
- Seleccionar actividad Safe-learning, meta-learning, robótica
  
  Safe-learning, meta-learning, robótica Archivo
  
  Los estudiantes deben
  
  Marcar como hecha

Perfilado de sección

Bienvenidos al curso de Aprendizaje por Recompensas 2021.

Clases por zoom

Evaluación

Bibliografía

Formularios de Inscripción y Evaluación