# AA-UTE 2024

## Práctica 1 - Introducción a Scikit-learn

### Objetivos:
En esta práctica se introduce el módulo `scikit-learn` o `"sklearn"` que facilita el acceso a diversas herramientas estándar del área de aprendizaje automático, como pueden ser: 

- Entrenamiento de clasificadores 
- Separación de datos
- Cálculo de métricas de desempeño de los modelos 
- Pre-procesamientos y transformaciones
- Pipelines 

En este notebook se visitarán las primeras tres y se espera que logren identificar partes escenciales en modelos de clasificación que brinda esta herramienta.

Por información adicional puede consultar la [página oficial](https://scikit-learn.org/stable/getting_started.html) y [otros tutoriales](https://scikit-learn.org/stable/tutorial/index.html).

In [None]:
# Importar bibliotecas clásicas
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## Parte 1 - Cargar Dataset Iris

1.1 Levantar el conjunto usando la [librería sklearn](https://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html).

_Nota_: Será de utilidad pasarle el argumento `as_frame` con valor en **True**.

In [None]:
from sklearn.datasets import load_iris
iris = # COMPLETAR: cargar dataset iris mediante sklearn

1.2 Una vez cargada la base (en formato de `diccionario python`), imprimir sus _metadatos/atributos_ usando el método `.keys()`. ¿Qué es cada elemento?

In [None]:
# COMPLETAR: imprimir keys

In [None]:
# COMPLETAR: imprimir la descripción

1.3 Extraer el dataframe de los datos levantados

In [None]:
df_iris = iris.frame

In [None]:
df_iris.info()

In [None]:
df_iris.describe()

1.4 Visualizar el espacio de características de **_dos en dos_**. Se recomienda usar la función [`pairplot`](https://python-charts.com/correlation/pairs-plot-seaborn/) de la librería `seaborn`.

In [None]:
import seaborn as sns

df_features = df_iris.drop('target',axis=1) # quedarse con las características 

df_targets = df_iris['target'] # quedarse con los targets

##############################
### COMPLETAR con pairplot ###
##############################

Analizar las gráficas y elegir dos de las características de los datos para el entrenamiento de las siguientes partes.

¿Por qué seleccionó esas dos?

In [None]:
# Características a elegir
chosen_features = # COMPLETAR

# Dejar datos en arrays numpy
X = df_features[chosen_features].to_numpy()
y = df_targets.to_numpy()

1.5 Dividir los datos en conjunto de entrenamiento (**_train_**) y de prueba (**_test_**) usando `train_test_split` de sklearn. Usar un 80% para train y un 20% para test.

In [None]:
from sklearn.model_selection import train_test_split

# Separar en train y test 
X_train, X_test, y_train, y_test = # COMPLETAR

In [None]:
# Verificar porcentajes de conjuntos entrenamiento/prueba

train_percent = 100 * len(X_train) / len(iris.data)
print('Porcentaje de datos en conjunto de entrenamiento: ', f'{train_percent:.1f} %')

test_percent = 100 * len(X_test) / len(iris.data)
print('Porcentaje de datos en conjunto de prueba: ', f'{test_percent:.1f} %')

## Parte 2 - Algoritmo de los K vecinos más cercanos (kNN)
[Ver documentación de sklearn](https://scikit-learn.org/1.4/modules/generated/sklearn.neighbors.KNeighborsClassifier.html)

### 2.1 Inicializar clasificador y ajuste a datos (método _fit_)

In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier # (para más adelante)

# Inicializar clasificador kNN 
clf = # COMPLETAR

# Entrenar el clasificador con los datos train usando el método "fit"
clf. # COMPLETAR

### 2.2 Métodos de predicción (_predict_) y de puntaje (_score_)

In [None]:
# Elegir dato y predecir. Variar el dato a predecir cambiando 
# el valor de la variable "indice" (por ejemplo: 0, 5, 7)
indice = 7
dato = X_test[ indice ]
etiqueta = y_test[ indice ]

# Predecir con método predict del clasificador
dato_pred = clf. # COMPLETAR: predecir la clase de la variable "dato"

print(f'Predicción dato: {iris.target_names[dato_pred]}')
print(f'Ground-truth dato: {iris.target_names[etiqueta]}')

In [None]:
# Predecir en todo el conjunto de test
y_pred = clf. # COMPLETAR

# Calcular la tasa de aciertos (accuracy):
# 1 - A mano usando las predicciones y np.count_nonzero()
# 2 - Usando el método "score" del clasificador

manual_acc = # COMPLETAR: calcular tasa de aciertos con numpy

clf_acc = clf. # COMPLETAR: usar método score del clasificador

# Verificar que den lo mismo

print('Cuanta manual:',manual_acc)
print('Score del clasificador:',clf_acc)
print('-----------------------------------')
print('Dan lo mismo?', manual_acc == clf_acc)
print('-----------------------------------')

**EXPERIMENTAR**

Investigar qué método del clasificador devuelve las probabilidades de pertenencia de cada clase. ¿Coinciden con las predicciones?

In [None]:
y_test_proba = clf. # COMPLETAR

y_test_max_proba = np.argmax(y_test_proba,axis=1) # Quedarse con la predicción más probable

# Comparar con la salida del .predict()
print('¿Son iguales las predicciones?',np.all(y_test_max_proba == y_pred))

## Parte 3 - Arbol de decisión

[Ver documentación de sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html)

Repetir el procedimiento anterior pero usando el clasificador de Arbol de Decisión.

Para ello sustituir `clf = KNeighborsClassifier()` por `clf = DecisionTreeClassifier()` de la parte 2.1, o volver a crear las celdas anteriores con dicho cambio.

In [None]:
#####################################
### COMPLETAR: mismo que parte 2) ###
### pero con árbol de decisión ###
#####################################

## Parte 4 - Matriz de confusión

4.1 Volver a entrenar cada clasificador por separado. Obtener sus predicciones y score en test

In [None]:
clf_knn = # COMPLETAR: inicializar kNN
# COMPLETAR training kNN
y_pred_knn = # COMPLETAR prediccion
clf_knn_test_score = # COMPLETAR score

clf_tree = # COMPLETAR: inicializar árbol
# COMPLETAR training árbol de decisión
y_pred_tree = # COMPLETAR prediccion
clf_tree_test_score = # COMPLETAR score

4.2 Para cada modelo entrenado calcular su [**matriz de confusión**](https://es.wikipedia.org/wiki/Matriz_de_confusi%C3%B3n) en los datos de test. Qué significan las filas y columnas de la matriz? Mostrar los valores de la matriz en absoluto y normalizadas por cada fila.

Calcularla con [`confusion_matrix`](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html) de sklearn.

In [None]:
from sklearn.metrics import confusion_matrix

normalizar_matriz = None # None o "true"

mat_conf_knn = # COMPLETAR
mat_conf_tree = # COMPLETAR

print('-----------------------')
print('CM de kNN:')
print( mat_conf_knn )
print('-----------------------')
print('CM de árbol de decisión:')
print( mat_conf_tree )
print('-----------------------')

In [None]:
# Mejor visualización usando los clasificadores, datos y etiquetas

from sklearn.metrics import ConfusionMatrixDisplay

normalizar_matriz = 'true' # None o "true"

# Función para desplegar 
def display_conf_mat_classifiers(classifiers, classifiers_name, 
 X, y, ax, classes_labels, 
 title=None):
 #
 for i, (clf_name, classifier) in enumerate(zip(classifiers_name,classifiers)):
 disp = ConfusionMatrixDisplay.from_estimator(
 classifier,
 X,
 y,
 display_labels=classes_labels,
 cmap=plt.cm.Blues,
 normalize=normalizar_matriz,
 ax=ax[i]
 )
 disp.ax_.set_title(clf_name)
 plt.tight_layout()

 plt.show()

fig, ax = plt.subplots(1,2, figsize=(8,3))

display_conf_mat_classifiers([clf_knn, clf_tree],[f'kNN (acc={clf_knn_test_score:.2f})',f'DecisionTree (acc={clf_tree_test_score:.2f})'], 
 X_test, y_test, ax, classes_labels=iris.target_names, 
 title=None)

**RESPONDER**
¿Cómo se puede obtener el accuracy a partir de la matriz de confusión? Pensar para la matriz sin normalizar.

_Respuesta_:

Puede verificarlo con el código de abajo para las clasificaciones de kNN.

In [None]:
acc_confmat_knn = # COMPLETAR

print('¿Coincide con accuracy?', acc_confmat_knn==clf_knn_test_score)

**EXPERIMENTAR**
Ver el score/accuracy de cada modelo, para los conjuntos de train y test, esta vez variando los hiperparámetros:
- _KNeighborsClassifier_ : `n_neighbors` $=\{1,4,10\}$
- _DecisionTreeClassifier_ : `max_depth` $=\{1,10,200\}$

Para ello:
1. Inicializar el clasificador con el hiperparámetro a probar
1. Entrenar con los datos de train
1. Obtener el accuracy en train
1. Obtener el accuracy en test

¿Para cuáles de estos valores hay un mejor desempeño en el conjunto de train que el de test?

¿Y viceversa?

In [None]:
# Variar hiperparámetro "n_neighbors" del KNN
n_neighbors = 4
clf_knn = # COMPLERTAR inicializar knn con n_neighbors
# COMPLERTAR training
y_score_train_knn = # COMPLERTAR score en train
y_score_test_knn = # COMPLERTAR score en test


# Variar hiperparámetro "max_depth" del arbol de decision
max_depth = 1
clf_tree = # COMPLERTAR inicializar arbol con max_depth
# COMPLERTAR training 
y_score_train_tree = # COMPLERTAR score en train 
y_score_test_tree = # COMPLERTAR score en test


print('--------------- kNN ----------------')
print(f'Train: {y_score_train_knn:.3f}\t||\tTest: {y_score_test_knn:.3f}')

print('\n-------- Arbol de decisión ---------')
print(f'Train: {y_score_train_tree:.3f}\t||\tTest: {y_score_test_tree:.3f}')
