Buenas!
Con mi equipo nos está pasando algo parecido.
Primero probamos en guardar el dataset integrado en un archivo .csv, pero este terminaba pesando aproximadamente 6GB y se volvia inmanejable a la hora de utilizar pandas para estudiarlo y generar los reportes.
Por lo tanto, armamos una base de datos PostgreSQL y guardamos los datos en una sola tabla. Esta tabla tiene aproximadamente 4 millones de filas. Utilizando pandas nuevamente se nos hace imposible generar un reporte que utilice las 4 millones de tuplas, esto debido a que no nos da la memoria (mi computadora tiene 16gb de ram).
Se nos ocurrió utilizando SQL tomar menos tuplas, pero esto no se si sería lo correcto debido a que no representa toda la realidad.
Alguna recomendación? Tratamos de mantener los datos lo más crudos posible como se mencionó en un mensaje del foro previamente.
Saludos, Agustín.