De que forma se seleccionan las transiciones desde el buffer dentro del Loop:
S,A,R,γ,S′←ReplayBuffer.sample_transition()
1-¿Es correcto seleccionarlas de forma aleatoria?
2-¿Cuantas transacciones deben ser seleccionadas?una por cada iteración? al principio el buffer no cuenta con 30 transiciones.
Saludos.