Buenas, en la clase de practico sobre los clasificadores Naive Bayes se menciono que la probabilidad P(w|c) se aproxima mediante el siguiente cociente:
<Cantidad de ocurrencias de w en la categoria c> + 1 / <Cantidad de ocurrencias de w en todo el corpus> + |V|
Sin embargo, en la solución del parcial 2016 ejercicio 5, aproxima esta probabilidad mediante:
<Cantidad de ocurrencias de w en la categoria c> + 1 / |vocabulario en categoria c| + |V|
¿Cual es la manera correcta de aproximar esa probabilidad?
Otra duda que me surgió es respecto a la necesidad de preprocesar. ¿Es necesario preprocesar (principalmente me refiero a eliminar stopwords) el corpus antes de clasificar una instancia? Y una ultima consulta ¿"limpia" y "limpio" se deberian considerar el mismo token una vez preprocesado el corpus?
Gracias.
Ignacio.