IntroPLN: Clasificador Naive Bayes

Buenas, en la clase de practico sobre los clasificadores Naive Bayes se menciono que la probabilidad P(w|c) se aproxima mediante el siguiente cociente:

<Cantidad de ocurrencias de w en la categoria c> + 1 / <Cantidad de ocurrencias de w en todo el corpus> + |V|

Sin embargo, en la solución del parcial 2016 ejercicio 5, aproxima esta probabilidad mediante:
<Cantidad de ocurrencias de w en la categoria c> + 1 / |vocabulario en categoria c| + |V|

¿Cual es la manera correcta de aproximar esa probabilidad?

Otra duda que me surgió es respecto a la necesidad de preprocesar. ¿Es necesario preprocesar (principalmente me refiero a eliminar stopwords) el corpus antes de clasificar una instancia? Y una ultima consulta ¿"limpia" y "limpio" se deberian considerar el mismo token una vez preprocesado el corpus?
Gracias.
Ignacio.

Re: Clasificador Naive Bayes

de Luis Chiruzzo - martes, 27 de junio de 2023, 13:45

Hola,

Es correcto lo que dice la prueba de 2016, lo calculamos mal en clase. El numerador queda igual, pero en el denominador hay que contar todas las palabras que aparecen en la categoria (ojo, no es el vocabulario, hay que contar todos los tokens) y sumarle el tamaño del vocabulario.

Sobre tu segunda consulta: todo esto va a depender de qué tanto querés complejizar el problema. Para un algoritmo simple como Naïve Bayes solemos hacer eliminación de stopwords, porque las stopwords son muy abundantes y pueden confundir más que ayudar al algoritmo, pero en otros más complejos puede no ser necesario. Lo segundo que decís refiere a la lematización, otra técnica que se puede usar cuando tenés pocos datos y querés lograr que generalicen más. De nuevo, ninguna de estas cosas es obligatoria, y pueden dar mejores o peores resultados dependiendo del dataset.

Lo que sí está bueno hacer siempre es algún tipo de suavizado (como el del ejemplo, sumando 1 al numerador y |V| al denominador) para que las probabilidades no se te vayan a 0, porque si todo da 0 no podés comparar nada.

Saludos,
Luis