Un saludo,
En el Ejercicio 03 del Práctico 03 tengo el siguiente par de inquietudes:
1) Al estimar la probabilidad de la oración por el modelo de bigramas se hace necesario hacer el conteo c(<s>) ¿este término corresponde al número de oraciones identificadas en el corpus (6030)? ¿Cada oración implica un comienzo de oración? o puede que se esté contando alguna oración "anidada" dentro de otra?, también pensé en asociar el conteo c(<s>) al conteo del bigrama c(. </s> ) (5842) así por cada término de fin </s> debería tener un termino de inicio <s> ¿Cuál sería el criterio correcto?
2) ¿Sería esta la interpretación adecuada de la Regla de Bayes para determinar la mejor oración candidata?:
P(W|Y)=Probabilidad de que la oración W sea la mejor explicación a la presencia de la señal Y proveniente del sistema de reconocimiento de texto
P(Y|W)=Probabilidad de que la señal Y fuera originada al tratar de escribir la oración W
P(W)=Probabilidad de que se haya escrito la oración W en el contexto de ese corpus
P(W|Y) =prop= P(Y|W)*P(W)
"Me pegué en la cabeza . " (P=0.3) --- Probabilidad dada por el sistema de reconocimiento de texto P(Y|W)
P(Me pegué en la cabeza.) (P=2.536 e-16) ---- Probabilidad calculada por el modelo de bigramas
P(W|Y) =prop= 0.3 * 2.536 e-16 = 7.608 e-17 ¿Se debe decir que es proporcional a este número, pero que no es igual?
Muchas gracias.