# Clasificación con imágenes

## Imports

In [None]:
#Datos
from sklearn.datasets import fetch_openml

#Tratamiento de datos
import numpy as np
import pandas as pd

#Visualización
import matplotlib.pyplot as plt
import seaborn as sns

#Reducción de dimensionalidad
from sklearn.decomposition import PCA

#Medir el progreso de ejecucion en loops
from tqdm import tqdm

## MNIST dataset

El conjunto de datos mnist_784 proviene de la base de datos MNIST (Modified National Institute of Standards and Technology), que es un conjunto de datos ampliamente utilizado en reconocimiento de imágenes y aprendizaje automático. MNIST es una colección de 70,000 imágenes de dígitos escritos a mano.

Cada imagen en el conjunto de datos MNIST es una imagen en escala de grises de 28x28 píxeles. En la versión mnist_784 de este conjunto de datos, cada imagen se ha "aplanado" en un vector de 1D de 784 características (es decir, 28x28 = 784), donde cada característica representa la intensidad de un píxel en la imagen. Por lo tanto, cada fila en el conjunto de datos mnist_784 representa una imagen.

El objetivo de este conjunto de datos es clasificar correctamente cada imagen en términos del dígito que representa (de 0 a 9). Las etiquetas correctas para cada imagen se proporcionan en el conjunto de datos.

In [None]:
#ATENCIÓN: esta celda puede demorar.
mnist = fetch_openml('mnist_784')

In [None]:
mnist.keys()

In [None]:
mnist.data.shape

In [None]:
mnist.DESCR

## EDA

In [None]:
#Imprimimos las primeras 5 imagenes
plt.figure(figsize=(10,2))
for index, (image, label) in enumerate(zip(mnist.data.to_numpy()[0:5], mnist.target[0:5])):
 plt.subplot(1, 5, index + 1)
 plt.imshow(np.reshape(image, (28,28)), cmap=plt.cm.gray,interpolation='nearest')
 plt.title(f"Label: {label}")

In [None]:
#Definimos X (las variables/features) e y (target)
X, y = mnist["data"], mnist["target"]

In [None]:
y.value_counts().plot(kind='bar')
plt.title('Distribución de las clases en el conjunto de datos MNIST')
plt.xlabel('Clase/Digito')
plt.ylabel('Cantidad')
plt.show()

In [None]:
#Convertimos cada imagen a matriz 28x28 y las clases a enteros solo a los efectos de un análisis exploratorio
X_image = X.to_numpy().reshape(-1, 28, 28)
y_image = y.astype(int)

In [None]:
# Calculamos la imagen promedio y la desviación estándar para cada dígito
mean_images = []
std_images = []
for i in range(10):
 mean_images.append(np.mean(X_image[y_image==i], axis=0))
 std_images.append(np.std(X_image[y_image==i], axis=0))

# Visualizamos las imágenes promedio y las desviaciones estándar
fig, axs = plt.subplots(2, 10, figsize=(20, 5))

for i, (mean_img, std_img) in enumerate(zip(mean_images, std_images)):
 axs[0, i].imshow(mean_img, cmap=plt.cm.gray,interpolation='nearest')
 axs[0, i].set_title(f"Mean of {i}")
 axs[0, i].axis('off')

 axs[1, i].imshow(std_img, cmap=plt.cm.gray,interpolation='nearest')
 axs[1, i].set_title(f"Std. Dev. of {i}")
 axs[1, i].axis('off')

plt.show()

## PCA

El Análisis de Componentes Principales (PCA, por sus siglas en inglés) es un método estadístico que se utiliza para reducir la dimensionalidad de un conjunto de datos, mientras se conserva la mayor cantidad posible de la variación en los datos.

PCA transforma el conjunto de datos original a un nuevo sistema de coordenadas en el que la base está formada por los vectores propios. Los nuevos ejes (o componentes principales) son ortogonales entre sí y capturan la mayor variación en los datos.

Una de las ventajas de PCA es que al reducir la dimensionalidad del conjunto de datos, también puede ayudar a aliviar problemas de tiempos de ejecución que pueden surgir al trabajar con conjuntos de datos de alta dimensión. También se utiliza frecuentemente para la visualización de datos de alta dimensión.

In [None]:
n_components = 50 # Nueva cantidad de features
pca = PCA(n_components=n_components)
X_pca = pca.fit_transform(X)

In [None]:
pd.DataFrame(X_pca).shape

In [None]:
# Seteamos ademas una semilla para tener reproducibilidad
np.random.seed(42)

# Vamos a seleccionar 30k imagenes para realizar el entrenamiento y las predicciones (por un tema de tiempos de ejecución)
indices_train = np.random.choice(
 X_pca.shape[0],
 size = 30000,
 replace=False
 )

# Guardamos algunos de los índices restantes para validación
indices_not_in_train = np.array([z for z in range(X_pca.shape[0]) if not z in indices_train])
indices_val = np.random.choice(indices_not_in_train, 20000)

# Seleccionamos las imagenes y su target
X_train = X_pca[indices_train]
y_train = y.iloc[indices_train]

X_val = X_pca[indices_val]
y_val = y.iloc[indices_val]

# Ejercicios

## Parte 1

Entrenar tres clasificadores: KNN, Regresión Logística y Árboles de decisión. Utilizar los parámetros por defecto.

KNN

In [None]:
from sklearn.neighbors import KNeighborsClassifier

In [None]:
#COMPLETAR

Regresión Logística

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
#COMPLETAR

Árboles de Decisión

In [None]:
from sklearn.tree import DecisionTreeClassifier

#Visualización de árboles de decisión
from sklearn.tree import plot_tree

In [None]:
#COMPLETAR

## Parte 2

a) Graficar el error en entrenamiento y en validación en función del parámetro *K* para KNN

In [None]:
#COMPLETAR

b) Graficar el error en entrenamiento y en validación en función del parámetro *max_depth* para el Árbol de Decisión


In [None]:
#COMPLETAR

## Parte 3
Comparar los tres modelos construidos en la parte 1, utilizando matrices de confusión y las métricas que considere convenientes.

In [None]:
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix, ConfusionMatrixDisplay

In [None]:
#COMPLETAR

## Parte 4
Seleccionar el modelo que entiende tiene un mejor rendimiento. Justificar.

In [None]:
#COMPLETAR