# AA-UTE 2024

## Aprendizaje No Supervisado

In [None]:
import sklearn
import matplotlib.pyplot as plt
import numpy as np

# Para fijar tamaños en figuras
plt.rc('font', size=14)
plt.rc('axes', labelsize=14, titlesize=14)
plt.rc('legend', fontsize=14)
plt.rc('xtick', labelsize=10)
plt.rc('ytick', labelsize=10)

Correr la siguiente celda con funciones auxiiares

In [None]:
### utils
def plot_data(X):
 plt.plot(X[:, 0], X[:, 1], 'k.', markersize=2)

def plot_centroids(centroids, weights=None, circle_color='w', cross_color='k'):
 if weights is not None:
 centroids = centroids[weights > weights.max() / 10]
 plt.scatter(centroids[:, 0], centroids[:, 1],
 marker='o', s=35, linewidths=8,
 color=circle_color, zorder=10, alpha=0.9)
 plt.scatter(centroids[:, 0], centroids[:, 1],
 marker='x', s=2, linewidths=12,
 color=cross_color, zorder=11, alpha=1)

def plot_decision_boundaries(clusterer, X, resolution=1000, show_centroids=True,
 show_centers=False, show_xlabels=True, show_ylabels=True):
 mins = X.min(axis=0) - 0.1
 maxs = X.max(axis=0) + 0.1
 xx, yy = np.meshgrid(np.linspace(mins[0], maxs[0], resolution),
 np.linspace(mins[1], maxs[1], resolution))
 Z = clusterer.predict(np.c_[xx.ravel(), yy.ravel()])
 Z = Z.reshape(xx.shape)

 plt.contourf(Z, extent=(mins[0], maxs[0], mins[1], maxs[1]),
 cmap="Pastel2")
 plt.contour(Z, extent=(mins[0], maxs[0], mins[1], maxs[1]),
 linewidths=1, colors='k')
 plot_data(X)
 if show_centroids:
 plot_centroids(clusterer.cluster_centers_)

 if show_centers:
 plot_centroids(clusterer.means_)

 if show_xlabels:
 plt.xlabel("$x_1$")
 else:
 plt.tick_params(labelbottom=False)
 if show_ylabels:
 plt.ylabel("$x_2$", rotation=0)
 else:
 plt.tick_params(labelleft=False)


def plot_clusterer_comparison(clusterer1, clusterer2, X, title1=None,
 title2=None):
 clusterer1.fit(X)
 clusterer2.fit(X)

 plt.figure(figsize=(10, 3.2))

 plt.subplot(121)
 plot_decision_boundaries(clusterer1, X)
 if title1:
 plt.title(title1)

 plt.subplot(122)
 plot_decision_boundaries(clusterer2, X, show_ylabels=False)
 if title2:
 plt.title(title2)

from matplotlib.colors import LogNorm

def plot_gaussian_mixture(clusterer, X, resolution=1000, show_ylabels=True):
 mins = X.min(axis=0) - 0.1
 maxs = X.max(axis=0) + 0.1
 xx, yy = np.meshgrid(np.linspace(mins[0], maxs[0], resolution),
 np.linspace(mins[1], maxs[1], resolution))
 Z = -clusterer.score_samples(np.c_[xx.ravel(), yy.ravel()])
 Z = Z.reshape(xx.shape)

 plt.contourf(xx, yy, Z,
 norm=LogNorm(vmin=1.0, vmax=30.0),
 levels=np.logspace(0, 2, 12))
 plt.contour(xx, yy, Z,
 norm=LogNorm(vmin=1.0, vmax=30.0),
 levels=np.logspace(0, 2, 12),
 linewidths=1, colors='k')

 Z = clusterer.predict(np.c_[xx.ravel(), yy.ravel()])
 Z = Z.reshape(xx.shape)
 plt.contour(xx, yy, Z,
 linewidths=2, colors='r', linestyles='dashed')
 
 plt.plot(X[:, 0], X[:, 1], 'k.', markersize=2)
 plot_centroids(clusterer.means_, clusterer.weights_)

 plt.xlabel("$x_1$")
 if show_ylabels:
 plt.ylabel("$x_2$", rotation=0)
 else:
 plt.tick_params(labelleft=False)


## K-Means

### Funcionamiento

Creado de datos sintéticos con cinco agrupamientos diferentes

In [None]:
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs

# Definir centros de clusters y cuánto ocupan
blob_centers = np.array([[ 0.2, 2.3], [-1.5 , 2.3], [-2.8, 1.8],
 [-2.8, 2.8], [-2.8, 1.3]])
blob_std = np.array([0.4, 0.3, 0.1, 0.1, 0.1])
X, y = make_blobs(n_samples=2000, centers=blob_centers, cluster_std=blob_std,
 random_state=42)

# Graficar
plt.figure(figsize=(8, 4))
plt.scatter(X[:, 0], X[:, 1], s=1)
plt.xlabel("$x_1$")
plt.ylabel("$x_2$", rotation=0)
plt.gca().set_axisbelow(True)
plt.grid()
plt.show()

Entrenar un algoritmo KMeans y ver las regiones de decisión

In [None]:
k = 5
kmeans = KMeans(n_clusters=k, n_init=10, random_state=40)
y_pred = kmeans.fit_predict(X)

plt.figure(figsize=(8, 4))
plot_decision_boundaries(kmeans, X)
plt.show()

Evolución de las iteraciones:

In [None]:
# Se fija el estado para reproducir las iteraciones anteriores

kmeans_iter1 = KMeans(n_clusters=5, init="random", n_init=1, max_iter=1,
 random_state=9)
kmeans_iter2 = KMeans(n_clusters=5, init="random", n_init=1, max_iter=2,
 random_state=9)
kmeans_iter3 = KMeans(n_clusters=5, init="random", n_init=1, max_iter=3,
 random_state=9)
kmeans_iter1.fit(X)
kmeans_iter2.fit(X)
kmeans_iter3.fit(X)

plt.figure(figsize=(10, 8))

plt.subplot(321)
plot_data(X)
plot_centroids(kmeans_iter1.cluster_centers_, circle_color='r', cross_color='w')
plt.ylabel("$x_2$", rotation=0)
plt.tick_params(labelbottom=False)
plt.title("Inicialización/actualización de centroides")

plt.subplot(322)
plot_decision_boundaries(kmeans_iter1, X, show_xlabels=False,
 show_ylabels=False)
plt.title("Etiquetado de instancias\n(según centroides de la izq.)")

plt.subplot(323)
plot_decision_boundaries(kmeans_iter1, X, show_centroids=False,
 show_xlabels=False)
plot_centroids(kmeans_iter2.cluster_centers_)

plt.subplot(324)
plot_decision_boundaries(kmeans_iter2, X, show_xlabels=False,
 show_ylabels=False)

plt.subplot(325)
plot_decision_boundaries(kmeans_iter2, X, show_centroids=False)
plot_centroids(kmeans_iter3.cluster_centers_)

plt.subplot(326)
plot_decision_boundaries(kmeans_iter3, X, show_ylabels=False)

plt.show()

### Encontrar el número de clusters

En general la cantidad de clusters determinados por los datos no está a la vista, y para altas dimensiones es aún más dificil de visualizar.

Dentro de los métodos para elegir la cantidad de clusters se pueden encontrar los siguientes dos enfoques:

- Estimación por _inercia_
- Estimación por _coeficiente de Silhouette_

In [None]:
kmeans_per_k = [KMeans(n_clusters=k, n_init=10, random_state=42).fit(X)
 for k in range(1, 10)]
inertias = [model.inertia_ for model in kmeans_per_k]

plt.figure(figsize=(8, 3.5))
plt.plot(range(1, 10), inertias, "bo-")
plt.xlabel("$k$")
plt.ylabel("Inercia")
plt.annotate("", xy=(4, inertias[3]), xytext=(4.45, 650),
 arrowprops=dict(facecolor='black', shrink=0.1))
plt.text(4.5, 650, "Codo", horizontalalignment="center")
plt.axis([1, 8.5, 0, 1300])
plt.grid()
plt.show()

plot_decision_boundaries(kmeans_per_k[4 - 1], X)
plt.show()

In [None]:
from sklearn.metrics import silhouette_score

silhouette_scores = [silhouette_score(X, model.labels_)
 for model in kmeans_per_k[1:]]

plt.figure(figsize=(8, 3))
plt.plot(range(2, 10), silhouette_scores, "bo-")
plt.xlabel("$k$")
plt.ylabel("Silhouette score")
plt.axis([1.8, 8.5, 0.55, 0.7])
plt.grid()
plt.show()

Otra opción es utilizar el _diagrama de Silhouette_. Compara el valor del score medio del modelo con los scores individuales de cada instancia. Esto lo hace representando cada cluster con cierta altura vertical (cuanto más alto, más instancias asignadas) y tomando el tamaño horizontal como el score de cada instancia (ordenados de mayor a menor).

Esta representación muestra cómo se distribuyen los coeficientes en cada cluster, resaltando cuáles pueden ser más significativos. Un buen número de cluster k es aquel que cumple tener los coeficientes distribuidos por encima del score medio.

In [None]:
from sklearn.metrics import silhouette_samples
from matplotlib.ticker import FixedLocator, FixedFormatter

plt.figure(figsize=(11, 9))

for k in (3, 4, 5, 6):
 plt.subplot(2, 2, k - 2)
 
 y_pred = kmeans_per_k[k - 1].labels_
 silhouette_coefficients = silhouette_samples(X, y_pred)

 padding = len(X) // 30
 pos = padding
 ticks = []
 for i in range(k):
 coeffs = silhouette_coefficients[y_pred == i]
 coeffs.sort()

 color = plt.cm.Spectral(i / k)
 plt.fill_betweenx(np.arange(pos, pos + len(coeffs)), 0, coeffs,
 facecolor=color, edgecolor=color, alpha=0.7)
 ticks.append(pos + len(coeffs) // 2)
 pos += len(coeffs) + padding

 plt.gca().yaxis.set_major_locator(FixedLocator(ticks))
 plt.gca().yaxis.set_major_formatter(FixedFormatter(range(k)))
 if k in (3, 5):
 plt.ylabel("Cluster")
 
 if k in (5, 6):
 plt.gca().set_xticks([-0.1, 0, 0.2, 0.4, 0.6, 0.8, 1])
 plt.xlabel("Coeficiente Silhouette")
 else:
 plt.tick_params(labelbottom=False)

 plt.axvline(x=silhouette_scores[k - 2], color="red", linestyle="--")
 plt.title(f"$k={k}$")

plt.show()

### Variabilidad y limitaciones

Inicialización

In [None]:
kmeans_rnd_init1 = KMeans(n_clusters=5, init="random", n_init=1, random_state=9)
kmeans_rnd_init2 = KMeans(n_clusters=5, init="random", n_init=1, random_state=100)

plot_clusterer_comparison(kmeans_rnd_init1, kmeans_rnd_init2, X,
 "Solución 1",
 "Solución 2\n(otra inicialización de centroides)")

plt.show()

**Pregunta:** aquí los centroides se inicializan de manera aleatoria. ¿Qué métodos se pueden usar para evitar soluciones sub-óptimas?

_Respuesta:_

Normalización de datos

In [None]:
# Datos no estandarizados
X_rescale = X.copy()
X_rescale[:,1] = X_rescale[:,1] / 4

k = 5

kmeans_rescale = KMeans(n_clusters=k, n_init=10, random_state=40)
y_pred = kmeans_rescale.fit_predict(X_rescale)

plot_decision_boundaries(kmeans_rescale, X_rescale)
plt.show()

**Pregunta:** ¿por qué es importante estandarizar los datos?

_Respuesta_

Datos **no isotrópicos**

In [None]:
# Clusters no isotrópicos

X1, y1 = make_blobs(n_samples=1000, centers=((4, -4), (0, 0)), random_state=42)
X1 = X1.dot(np.array([[0.374, 0.95], [0.732, 0.598]]))
X2, y2 = make_blobs(n_samples=250, centers=1, random_state=42)
X2 = X2 + [6, -8]
X_aniso = np.r_[X1, X2]
y = np.r_[y1, y2]

kmeans_1 = KMeans(n_clusters=3,
 init=np.array([[-1.5, 2.5], [0.5, 0], [4, 0]]),
 n_init=1, random_state=42)
kmeans_2 = KMeans(n_clusters=3, n_init=10, random_state=42)
kmeans_1.fit(X_aniso)
kmeans_2.fit(X_aniso)

plt.figure(figsize=(10, 3.2))

plt.subplot(121)
plot_decision_boundaries(kmeans_1, X_aniso)
plt.title(f"Inertia = {kmeans_1.inertia_:.1f}")

plt.subplot(122)
plot_decision_boundaries(kmeans_2, X_aniso, show_ylabels=False)
plt.title(f"Inertia = {kmeans_2.inertia_:.1f}")

plt.show()

Discutir cuál de ambos resultados es mejor en cuanto a inercia y en cuanto al patrón de los datos. ¿Cuál es el que "prefiere" KMeans y por qué?

_Respuesta_

## Modelo de Mezcla de Gaussianas

In [None]:
from sklearn.mixture import GaussianMixture

gm = GaussianMixture(n_components=3, n_init=10, random_state=42)
gm.fit(X_aniso)

Ver regiones del clustering para GMMs

In [None]:
plt.figure(figsize=(8, 4))
plot_decision_boundaries(gm,X_aniso, show_centroids=False, show_centers=True)
plt.show()

Verificar que GMM también se adapta a los datos isotrópicos $X$ usados en KMeans

### Detección de Anomalías con GMM

GMM estima densidades de probabilidad (de distribución Gaussiana), donde las instancias tienen asignadas probabilidades de ser generada por cada uno de los clusters (o gaussiana).

En particular, se puede visualizar la funciones de densidad de probabilidad:

In [None]:
plt.figure(figsize=(8, 4))

plot_gaussian_mixture(gm, X_aniso)

plt.show()

Ver los valores medios y matrices de covarianza para cada cluster

In [None]:
gm.means_

In [None]:
gm.covariances_

Al disponer de la función de densidad de probabilidad, se puede inferir la (log-)verosimilitud para cada muestra:

In [None]:
densities = gm.score_samples(X_aniso)
densities

A partir de esto se puede considerar que, si de todos los datos en general se tiene que el 4% son datos anómalos, se puede encontrar un umbral que indique que los valores menos probables de dicho porcentaje los detecte como anomalías:

In [None]:
densities = gm.score_samples(X_aniso)
density_threshold = np.percentile(densities, 4)
anomalies = X_aniso[densities < density_threshold]

plt.title('Histograma de log-verosimilitud')
plt.hist(densities, bins=100)
plt.vlines(density_threshold,0,100,'k',linestyles='dashed', label='Umbral')
plt.legend()
plt.show()

In [None]:
plt.figure(figsize=(8, 4))

plot_gaussian_mixture(gm, X_aniso)
plt.scatter(anomalies[:, 0], anomalies[:, 1], color='r', marker='*')
plt.ylim(top=5.1)

plt.show()

**Ejercicio:**

Indicar si los puntos [3,-0.5], [1,-1], [-2,2] son anómalos o no

## Opcional - Clustering en Electrodomésticos

Usando una representación en bajas dimensiones de los datos PLAID (representados en sus diagramas V-I), utilizar un algoritmo de clustering y encontrar el número óptimo de clusters.

Visualizar resultados en el espacio de baja dimensión.