DRL: Assigment 2.1.4 Experience Replay

Hola, en el pseudocodigo de experience replay dice tomar la acción de forma aleatoria, pero luego cuando se corre el experimento se le pasa una política e-greedy, mi pregunta es si debe tomarse random o e-greedy con respecto a q.

Gracias

Re: Assigment 2.1.4 Experience Replay

de Jose Lezama - martes, 21 de mayo de 2019, 09:10

Hola Martin,

La política epsilon-greedy es por definición aleatoria, sólo que no es uniformemente aleatoria.

De todas maneras la elección de la acción viene dada en ese ejercicio.

Espero haber entendido tu duda.

Saludos

Re: Assigment 2.1.4 Experience Replay

de Martin Beyer Deicas - martes, 21 de mayo de 2019, 10:10

En el ejercicio entonces me piden que la elección sea uniformemente

aleatoria?

On Tue, May 21, 2019 at 9:45 AM Jose Lezama (vía FING) <noreply@fing.edu.uy>

Re: Assigment 2.1.4 Experience Replay

de Giovanna Strelitzia Garula Silva - martes, 21 de mayo de 2019, 10:40

Si, yo también me confundí con lo mismo, recién me doy cuenta, porque además en el código que invoca a agente no se le pasa como parámetro la política que epsilon greedy que se define arriba, sumado a que el seudocódigo dice que se selecciona de forma randómica.

Entonces pregunta: ¿lo correcto es que el agente utilice la política behaviour_policy pasada como parámetro no?

Desde ya muchas gracias.

Saludos.

Giovanna.

Re: Assigment 2.1.4 Experience Replay

de Jose Lezama - martes, 21 de mayo de 2019, 14:41

Hola,

Perdón por el malentendido.

Ambas serían válidas, pero de hecho con la uniforme se nota mejor el efecto de experience replay, y queda consistente con el pseudocódigo.

Saludos

Re: Assigment 2.1.4 Experience Replay

de Martin Beyer Deicas - martes, 21 de mayo de 2019, 16:15

Quedo claro ahora, mucha gracias!

On Tue, May 21, 2019 at 3:15 PM Jose Lezama (vía FING) <noreply@fing.edu.uy>

Re: Assigment 2.1.4 Experience Replay

de Giovanna Strelitzia Garula Silva - martes, 21 de mayo de 2019, 17:23

Muchas gracias! Saludos.