Assigment 2.1.4 Experience Replay

Assigment 2.1.4 Experience Replay

de Martin Beyer Deicas -
Número de respuestas: 6

Hola, en el pseudocodigo de experience replay dice tomar la acción de forma aleatoria, pero luego cuando se corre el experimento se le pasa una política e-greedy, mi pregunta es si debe tomarse random o e-greedy con respecto a q.

Gracias

En respuesta a Martin Beyer Deicas

Re: Assigment 2.1.4 Experience Replay

de Jose Lezama -

Hola Martin,

La política epsilon-greedy es por definición aleatoria, sólo que no es uniformemente aleatoria.

De todas maneras la elección de la acción viene dada en ese ejercicio.

Espero haber entendido tu duda.

Saludos

En respuesta a Jose Lezama

Re: Assigment 2.1.4 Experience Replay

de Martin Beyer Deicas -
En el ejercicio entonces me piden que la elección sea uniformemente

aleatoria?



On Tue, May 21, 2019 at 9:45 AM Jose Lezama (vía FING) <noreply@fing.edu.uy>
En respuesta a Martin Beyer Deicas

Re: Assigment 2.1.4 Experience Replay

de Giovanna Strelitzia Garula Silva -
Si, yo también me confundí con lo mismo, recién me doy cuenta, porque además en el código que invoca a agente no se le pasa como parámetro la política que epsilon greedy que se define arriba, sumado a que el seudocódigo dice que se selecciona de forma randómica.

Entonces pregunta: ¿lo correcto es que el agente utilice la política behaviour_policy pasada como parámetro no?

Desde ya muchas gracias.

Saludos.

Giovanna.

En respuesta a Giovanna Strelitzia Garula Silva

Re: Assigment 2.1.4 Experience Replay

de Jose Lezama -

Hola,

Perdón por el malentendido.

Ambas serían válidas, pero de hecho con la uniforme se nota mejor el efecto de experience replay, y queda consistente con el pseudocódigo.


Saludos