Consulta sobre calidad de datos

Consulta sobre calidad de datos

de Ana Laura Cortazzo Dorado -
Número de respuestas: 2

Buenas tardes!

Tenemos una consulta sobre el alcance y la metodología para la limpieza de datos. Estamos trabajando con los datos de calidad del aire de Montevideo (https://catalogodatos.gub.uy/dataset/intendencia-montevideo-red-de-monitoreo-de-la-calidad-del-aire-de-montevideo) y lo vamos a hacer desde MongoDB.

En un análisis exploratorio de los datos detectamos que hay muchos valores NaN en diferentes sensores, en algunos casos, tenemos un mes entero o más sin datos de un sensor. Si bien el foco del proyecto no es el análisis de los datos, y sí la experimentación con diferentes esquemas documentales, al tener tantos NaN los resultados no son los mejores. Estuvimos investigando diferentes metodologías para imputación de valores NaN desde MongoDB, pero detectamos que tal vez no es motor más potente para hacer eso. La estrategia que estamos implementando es llenar los NaN con promedios mensuales históricos (ya que se percibe una tendencia estacional en los datos), y lo estamos haciendo todo con agregaciones dentro de MongoDB.  La pregunta es, tratamos de hacer desde MongoDB todo lo que podamos o tal vez es mejor implementar la limpieza de datos con Python, usando una estrategia un poco más sofisticada?

Aguardamos sus comentarios.

Saludos!

Ana y Pablo.

En respuesta a Ana Laura Cortazzo Dorado

Re: Consulta sobre calidad de datos

de Lorena Etcheverry -

Hola Ana:

si bien coincido en que no es el foco del curso (paso el aviso que tenemos uno de calidad de datos el segundo semestre :D ) si los datos están demasiado complicados el análisis pierde gracia.

La imputación de series de tiempo es todo un tema (tmb hay otro curso de series temporales el 2do semestre) y la aproximación de los promedios para algunos tipos de datos funciona bien. En este caso no lo se, pero si lograron ver este comportamiento estacional serviría.

En cuanto a donde hacerlo, la respuesta es donde les quede más cómodo: puede ser en Python previo a la carga o intrínseco dentro de MongoDB.

saludos

Lorena