CDI: dataset L1 inmanejable para SQL Server Managment Studio

Buenas!
Con mi equipo nos está pasando algo parecido.
Primero probamos en guardar el dataset integrado en un archivo .csv, pero este terminaba pesando aproximadamente 6GB y se volvia inmanejable a la hora de utilizar pandas para estudiarlo y generar los reportes.
Por lo tanto, armamos una base de datos PostgreSQL y guardamos los datos en una sola tabla. Esta tabla tiene aproximadamente 4 millones de filas. Utilizando pandas nuevamente se nos hace imposible generar un reporte que utilice las 4 millones de tuplas, esto debido a que no nos da la memoria (mi computadora tiene 16gb de ram).
Se nos ocurrió utilizando SQL tomar menos tuplas, pero esto no se si sería lo correcto debido a que no representa toda la realidad.
Alguna recomendación? Tratamos de mantener los datos lo más crudos posible como se mencionó en un mensaje del foro previamente.
Saludos, Agustín.

Re: dataset L1 inmanejable para SQL Server Managment Studio

de Flavia Serra - viernes, 4 de abril de 2025, 10:39

Hola Agustín,

de tu planteo me surgen para ustedes las siguientes preguntas:

- Consideran que la mejor solución para la NL es una única tabla?
- Consideran que tener una única tabla permite explotar de la mejor manera la gestión de calidad de datos?
- Ustedes están pensando en una BD relacional como solución, siendo así, están teniendo en cuenta todo lo que han aprendido para diseñar BD relacionales?

Mi recomendación es que reflexionen respecto a estas preguntas que les dejo, para que analicen si están yendo por la mejor opción. Seguimos discutiendo.

Saludos,
Flavia

Re: dataset L1 inmanejable para SQL Server Managment Studio

de Agustín Torres Mari - viernes, 4 de abril de 2025, 11:13

Buenas Flavia!
Tenés toda la razón del mundo, continuamos trabajando luego del mensaje que envié y mejoramos el diseño de la base de datos, lo que nos permitió poder generar reportes automáticos respecto a usuarios y libros.
Sin embargo, seguimos teniendo problema con generar reportes automáticos de los ratings, hay tantas reseñas (4 millones) que el pandas ocupa demasiada ram al generar el reporte y se corta el proceso.
Es una opción viable ver los reportes y realizar los mismos estudios mediante SQL, que está mucho más optimizado para hacer consultas?
Desde ya muchas gracias!

Re: dataset L1 inmanejable para SQL Server Managment Studio

de Flavia Serra - viernes, 4 de abril de 2025, 17:51

Hola Agustin,

entiendo que toda esta conversación es sobre el data profiling. Están en una BD postgreSQL, así que claro que tiene sentido usar SQL. Por otro lado, si quieren usar pandas tiene sentido usar un muestreo de los datos para hacer análisis, mientras que en postgres pueden usar los 4 millones sin problemas.

Saludos!
Flavia