Práctico 03 - Ejercicio 03 / Consulta

Práctico 03 - Ejercicio 03 / Consulta

de Mauricio Pedroza Torres -
Número de respuestas: 3

Un saludo,

En el Ejercicio 03 del Práctico 03 tengo el siguiente par de inquietudes:

1) Al estimar la probabilidad de la oración por el modelo de bigramas se hace necesario hacer el conteo c(<s>) ¿este término corresponde al número de oraciones identificadas en el corpus (6030)? ¿Cada oración implica un comienzo de oración? o puede que se esté contando alguna oración "anidada" dentro de otra?, también pensé en asociar el conteo c(<s>) al conteo del bigrama c(. </s> ) (5842) así por cada término de fin </s> debería tener un termino de inicio <s> ¿Cuál sería el criterio correcto?

2) ¿Sería esta la interpretación adecuada de la Regla de Bayes para determinar la mejor oración candidata?:

P(W|Y)=Probabilidad de que la oración W sea la mejor explicación a la presencia de la señal Y proveniente del sistema de reconocimiento de texto

P(Y|W)=Probabilidad de que la señal Y fuera originada al tratar de escribir la oración W

P(W)=Probabilidad de que se haya escrito la oración W en el contexto de ese corpus

P(W|Y) =prop= P(Y|W)*P(W)


"Me pegué en la cabeza . " (P=0.3) --- Probabilidad dada por el sistema de reconocimiento de texto P(Y|W)

P(Me pegué en la cabeza.) (P=2.536 e-16) ---- Probabilidad calculada por el modelo de bigramas

P(W|Y) =prop= 0.3 * 2.536 e-16 = 7.608 e-17 ¿Se debe decir que es proporcional a este número, pero que no es igual?

Muchas gracias.


En respuesta a Mauricio Pedroza Torres

Re: Práctico 03 - Ejercicio 03 / Consulta

de Luis Chiruzzo -
Buenas,

1) El dato de que son 6030 oraciones está exactamente para que sepan que hay 6030 "< s >" y 6030 "< /s >". No se consideran oraciones anidadas en este contexto.

2) La interpretación es correcta. Decimos que es proporcional (y no que es igual) porque estamos sacando el denominador P(Y) que sería necesario para el cálculo exacto, pero como estamos tratando de encontrar un máximo no nos afecta. Te quedás con la oración W que obtenga el valor máximo en ese producto.

Saludos,
Luis
En respuesta a Luis Chiruzzo

Re: Práctico 03 - Ejercicio 03 / Consulta

de Bruno Lartigau Antonini -
Buenas,

Quería aprovechar el hilo de este ejercicio para consultar que se pretende que utilicemos para tratar los casos de probabilidad 0.

Mirando el material, primero se explica el método de agregarle 1 a los contadores, lo cual dice que no se recomienda porque "“Mueve” demasiada masa de probabilidad hacia los Ngramas con probabilidad cero".

Luego, introduce los conceptos de Interpolación y Backoff, que entiendo que son mejores pero siento que se ven de forma superficial, por lo que se me dificulta entender cómo aplicarlos en un ejercicio.

En resumen, no sabría si se debería usar Interpolación y Backoff (en dicho caso precisaría una mano para entenderlo mejor) o si usando el primer método alcanzaría.

Muchas gracias.

Saludos,

Bruno Lartigau