Buenas tardes!
Tenemos una consulta sobre el alcance y la metodología para la limpieza de datos. Estamos trabajando con los datos de calidad del aire de Montevideo (https://catalogodatos.gub.uy/dataset/intendencia-montevideo-red-de-monitoreo-de-la-calidad-del-aire-de-montevideo) y lo vamos a hacer desde MongoDB.
En un análisis exploratorio de los datos detectamos que hay muchos valores NaN en diferentes sensores, en algunos casos, tenemos un mes entero o más sin datos de un sensor. Si bien el foco del proyecto no es el análisis de los datos, y sí la experimentación con diferentes esquemas documentales, al tener tantos NaN los resultados no son los mejores. Estuvimos investigando diferentes metodologías para imputación de valores NaN desde MongoDB, pero detectamos que tal vez no es motor más potente para hacer eso. La estrategia que estamos implementando es llenar los NaN con promedios mensuales históricos (ya que se percibe una tendencia estacional en los datos), y lo estamos haciendo todo con agregaciones dentro de MongoDB. La pregunta es, tratamos de hacer desde MongoDB todo lo que podamos o tal vez es mejor implementar la limpieza de datos con Python, usando una estrategia un poco más sofisticada?
Aguardamos sus comentarios.
Saludos!
Ana y Pablo.