Las cantidades que subrayaste, y que supongo que son las que querés que se expliquen más, son siempre H(X | Y=y_i), y se promedian en Y ponderándolas con las probabilidades P (Y=y_i).
Esas P(Y=y_i) son las marginales en Y, en este caso todas valen 1/4. Ojo, no sería lo mismo si promediáramos H(Y | X=x_j) porque las marginales de X son distintas. H(X|Y) es distinta de H(Y}X), pero H(X)+H(Y|X) + H(Y)+H(X|Y). Por qué?
Volviendo al ejemplo, para calcular H(X | Y=y_i) se usan (y se deben usar!) las probabilidades condicionales, que se calculan a partir de las conjuntas usando la regla de la cadena. En la matriz que te dan tenés las conjuntas, P(X=x_j, Y=y_i). De ahí surgen esos vectores. Me parece que a partir de esto lo vas a ver claro. Si no, no dudes en seguir preguntando.
María Simon