Data Profiling

Data Profiling

de Guillermo Agustin Hernandez Pena -
Número de respuestas: 0

Estuve experimentando un poco con DataCleaner  y con respecto a las los Artistas,  vi que hay varios campos en blanco.
Genero, tipo, edad y pais son los que me parecieron mas relevantes a la hora del análisis. Otros campos como ciudad, distrito (1, 2 y 3)  tambien en blanco no me parecieron tan relevantes.
No había problemas de identificadores en la tabla. Pero observe que el nombre de los artistas estaba repetido, por lo que le asignaba mas de 1 id a un artista (5 para SKY)


En cuanto a la tabla de los Grammy, en análisis posible que le hice fue de completitud de datos, que me dio que hay varias tuplas sin datos en la columna Artistas.
En alguna vi que estaban escritos mismos artistas , pero de diferente manera, pero no me lo dio el programa, sino que fue análisis crudo de la información al reordenar los nombres.


Con respecto a canciones, no pude sacar conclusiones, ya que creo eran demasiados datos. En mi equipo personal, aparte de demorar muchas horas (6 en total) en procesar la información, no finalizo la inclusión de todos los datos .
Me dio que algunas canciones tenían el mismo ID.
La duración en segundos era muy poca (0 o 1s) y en cuanto al campo popularidad, hay distintas nomenclaturas. En algunos esta solo el año, en otros día/mes/año.
No he podido sacar mas conclusiones dado que los resultados no son totales.


Para la comparación de fechas, no encontré forma de analizar, por ejemplo que sea una fecha valida?
Otro tipo de análisis, fue que quise comparar dos columnas de tipo fecha, para ver si una era menor que otra, pero no le encontré  la manera de hacerlo con el programa. Es posible hacerlo?

Saludos,