Assigment2 1.4 Experience Replay

Assigment2 1.4 Experience Replay

de Giovanna Strelitzia Garula Silva -
Número de respuestas: 4

De que forma se seleccionan las transiciones desde el buffer dentro del Loop:

S,A,R,γ,SReplayBuffer.sample_transition()

1-¿Es correcto seleccionarlas de forma aleatoria?

2-¿Cuantas transacciones deben ser seleccionadas?una por cada iteración? al principio el buffer no cuenta con 30 transiciones.

Saludos.



En respuesta a Giovanna Strelitzia Garula Silva

Re: Assigment2 1.4 Experience Replay

de Jose Lezama -

Hola Giovanna,


1. Sí es correcto.

2. Bien al principio habrán menos transiciones en el buffer que la cantidad de iteraciones offline, y por lo tanto se repetirán. Pero por ser sólo al principio no es un problema.


Saludos

En respuesta a Jose Lezama

Re: Assigment2 1.4 Experience Replay

de Giovanna Strelitzia Garula Silva -
Otra consulta respecto a este ejercicio, en el punto 4 del seudocódigo del algoritmo, el taget no tendría que ser calculado a partir de S', y no S como figura:


 Q(S, A)  \leftarrow Q(S, A) + \alpha(R + \gamma max_a Q(S, a) - Q(S, A))


Saludos.

Giovanna.