No estoy segura de entender bien.
H(X) se puede hacer con las probabilidades marginales, llamadas P(X) en la última fila de la matriz. H(Y) de igual manera, con sus marginales.
H(X,Y) hay que hacerlo sumando en i y en j. Escribo en un pseudo latex:
H(X,Y) = sum_i sum_j {p(x_i,y_j) log p(x_i, y_j)}
H(X|Y) o H(Y|X) se pueden obtener teniendo H(X), H(Y) y H(X,Y) por la regla de la cadena.
Igual lo vemos mañana. Disculpa que no pude contestar antes.