Quería aclarar la digresión de hoy sobre la entropía cruzada. En el afán por transmitirles más cosas, y por no tener frescas las definiciones, creo que confundió más de lo que ayudó. Las sigmoides o funciones softmax se utilizan mucho como "funciones de activación" (la no linealidad) a la salida de las capas de una red neuronal. En la regresión logística, lo que tenemos en definitiva es una red neuronal de una capa (en el caso de dos clases, un perceptrón pero donde la función de activación es una sigmoide en vez del signo). Por esta razón, la función softmax y el costo de entropía cruzada son objetos muy frecuentes, y es importante saber intepretarlos.
Adjunto entonces unas notas que escribí sobre la divergencia de Kullback-Leibler y la entropía cruzada en regresión logística.
Saludos
Pablo