Buenas, en el libro del curso se describe un algoritmo de skip-gram distinto al visto en clase. En particular, se trata el problema como un problema de regresion logísitica sobre una clase binaria (la palabra es o no una palabra de contexto para la palabra objetivo), en vez de entrenar una red neuronal que para cada palabra de contexto de como salida una distribución de probabilidad (que si no me equivoco fue lo que dimos en clase). Me quedaron entonces las 2 siguientes preguntas:
¿Son equivalentes ambos algoritmos?
En el caso del entrenamiento de la red neuronal: ¿Dónde se usan los ejemplos negativos? ¿Cuáles serían los ejemplos etiquetados para aprender?
Saludos,
Rafael.