Buenas!
Con mi equipo nos está pasando algo parecido.
Primero probamos en guardar el dataset integrado en un archivo .csv, pero este terminaba pesando aproximadamente 6GB y se volvia inmanejable a la hora de utilizar pandas para estudiarlo y generar los reportes.
Por lo tanto, armamos una base de datos PostgreSQL y guardamos los datos en una sola tabla. Esta tabla tiene aproximadamente 4 millones de filas. Utilizando pandas nuevamente se nos hace imposible generar un reporte que utilice las 4 millones de tuplas, esto debido a que no nos da la memoria (mi computadora tiene 16gb de ram).
Se nos ocurrió utilizando SQL tomar menos tuplas, pero esto no se si sería lo correcto debido a que no representa toda la realidad.
Alguna recomendación? Tratamos de mantener los datos lo más crudos posible como se mencionó en un mensaje del foro previamente.
Saludos, Agustín.
Con mi equipo nos está pasando algo parecido.
Primero probamos en guardar el dataset integrado en un archivo .csv, pero este terminaba pesando aproximadamente 6GB y se volvia inmanejable a la hora de utilizar pandas para estudiarlo y generar los reportes.
Por lo tanto, armamos una base de datos PostgreSQL y guardamos los datos en una sola tabla. Esta tabla tiene aproximadamente 4 millones de filas. Utilizando pandas nuevamente se nos hace imposible generar un reporte que utilice las 4 millones de tuplas, esto debido a que no nos da la memoria (mi computadora tiene 16gb de ram).
Se nos ocurrió utilizando SQL tomar menos tuplas, pero esto no se si sería lo correcto debido a que no representa toda la realidad.
Alguna recomendación? Tratamos de mantener los datos lo más crudos posible como se mencionó en un mensaje del foro previamente.
Saludos, Agustín.