Buenas noches,
Realizando el ejército 3 me surgió la siguiente duda.
En la letra del ejercicio se especifica que se está trabajando con un LLM de bigramas, donde se provee la fórmula de la probabilidad conjunta (bigrama) .
Según entiendo, lo que el ejército pide es el cálculo de
En clase dimos como se desarrollaría la siguiente fórmula usando la regla de la cadena:
Entonces en nuestro caso debería ser
Para llevarlo a probabilidades conjuntas, aplico la definición
Quedando en:
Entonces les consulto:
1) ¿Qué estoy entiendo mal de la fórmula para el cálculo de la probabilidad de la sentencia, por lo cual en la solución queda sin las probabilidades de “María” “Come” y “Pan”?
2) ¿Puede ser que en la letra se quería poner la fórmula de probabilidad de P(A|B)? Me parece lo más lógico dado lo de arriba, pero me llama la atención que en la solución lo menciona como probabilidad conjunta, y no hace mención a P(<S>)
3) Siguiendo los cálculos, si tomo como probabilidad de una palabra su frecuencia en el corpus (total ocurrencia de esa palabra en el corpus / total de palabras (contando repetición) en el corpus), sucede que la segunda oración tiene un poco más de probabilidad que la primera. Supongo que es debido a que efectivamente estamos tratando con probabilidad condicional en realidad, ¿No?
Saludos y gracias,
Daniel