Foro sobre proyectos de fin de curso

Buenas tardes!

Tenemos una consulta sobre el alcance y la metodología para la limpieza de datos. Estamos trabajando con los datos de calidad del aire de Montevideo (https://catalogodatos.gub.uy/dataset/intendencia-montevideo-red-de-monitoreo-de-la-calidad-del-aire-de-montevideo) y lo vamos a hacer desde MongoDB.

En un análisis exploratorio de los datos detectamos que hay muchos valores NaN en diferentes sensores, en algunos casos, tenemos un mes entero o más sin datos de un sensor. Si bien el foco del proyecto no es el análisis de los datos, y sí la experimentación con diferentes esquemas documentales, al tener tantos NaN los resultados no son los mejores. Estuvimos investigando diferentes metodologías para imputación de valores NaN desde MongoDB, pero detectamos que tal vez no es motor más potente para hacer eso. La estrategia que estamos implementando es llenar los NaN con promedios mensuales históricos (ya que se percibe una tendencia estacional en los datos), y lo estamos haciendo todo con agregaciones dentro de MongoDB. La pregunta es, tratamos de hacer desde MongoDB todo lo que podamos o tal vez es mejor implementar la limpieza de datos con Python, usando una estrategia un poco más sofisticada?

Aguardamos sus comentarios.

Saludos!

Ana y Pablo.

Hacer un comentario en este tema (2 réplicas)

Hola!

dado que hay varios grupos que se plantean importar datos desde csv u otros formatos a Neo4J, y que recuerdo que hay diferentes estrategias para hacerlo, les invito a compartir sus experiencias en este hilo.

A medida que prueben estrategias y herramientas distintas estaría bueno compartir y colectivizar acá.

saludos!

Lorena

Hacer un comentario en este tema (3 réplicas)

Foro sobre proyectos de fin de curso

Foro sobre proyectos de fin de curso

Consulta sobre calidad de datos

Importar datos a Neo4J