# Clase 2
En esta clase vamos a poner en practica los conocimiento vistos en la primera clase.

Vamos a utilizar un dataset bastante conocido: Titanic, que muestra datos de los pasajeros del crucero. El objetivo es entrenar un clasificador binario que, a partir de los datos de los pasajeros, clasifique correctamente su supervivencia.

Comencemos por descargarlo en la siguiente celda:

In [None]:
! wget https://eva.fing.edu.uy/pluginfile.php/255092/mod_folder/content/0/titanic.txt

--2023-08-23 05:10:38--  https://eva.fing.edu.uy/pluginfile.php/255092/mod_folder/content/0/titanic.txt
Resolving eva.fing.edu.uy (eva.fing.edu.uy)... 164.73.32.9
Connecting to eva.fing.edu.uy (eva.fing.edu.uy)|164.73.32.9|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 116946 (114K) [text/plain]
Saving to: ‘titanic.txt.2’


2023-08-23 05:10:41 (144 KB/s) - ‘titanic.txt.2’ saved [116946/116946]



La siguiente celda es para verificar que la descarga fue exitosa. En caso de tener problemas, pueden hacerlo manualmente desde el EVA del curso, en el material de la clase 2.

In [None]:
import os
assert os.path.isfile("titanic.txt"), "No se descargo el archivo! Verificar la ejecucion de la celda anterior."

Luego vamos a importar algunas librerias genericas.

_Nota: Siempre es buena idea importar las librerías genéricas al principio._

In [None]:
import sklearn as sk
import numpy as np
import matplotlib.pyplot as plt

RANDOM_STATE=0

## Importación y procesamiento de datos
En todo proyecto de aprendizaje automático es fundamental manejar el conjunto de datos.
Es importante tener una noción del conjunto de datos, para saber, entre otras cosas:
* Qué atributos son numéricos, y cuáles son categóricos.
* Si hace falta normalizar los atributos (depende del algoritmo a utilizar también)
* La presencia de atributos faltantes.

### Importación
Primero importamos los datos.  
Al observar el archivo, pueden identificar columnas e instancias que no sean necesarias?

In [None]:
import os
import pandas as pd

assert os.path.isfile('titanic.txt'), 'No se encontró el archivo titanic.txt; asegurate de haberlo cargado'

# leemos el dataset utilizando Pandas
data = pd.read_csv('titanic.txt')
# eliminamos la columna row.names que solo tiene el nuero de fila
# tambien vamos a eliminar los atributos 'name' y 'home.dest'
# ya que contienen texto libre, y aun no hemos visto como tratar con ellos
data.drop(['row.names', 'name', 'home.dest'], axis=1, inplace=True)

print('Mostramos para cada columna, el porcentaje de datos faltantes:\n')
print(data.isnull().mean()*100)

Mostramos para cada columna, el porcentaje de datos faltantes:

pclass       0.000000
survived     0.000000
age         51.789794
embarked    37.471439
room        94.135567
ticket      94.744859
boat        73.571973
sex          0.000000
dtype: float64


In [None]:
# === Su codigo empieza acá ===
# Modificar la lista columns de manera que contenga solo aquellos atributos
# que querramos a usar. Notar que actualmente tiene todos los atributos
# borren aquellos que crean inutiles
columns = ['pclass', 'embarked',
           'room', 'ticket', 'boat', 'sex', 'age']

# === Su codigo termina acá ===

# Nos quedamos con los datos como numpy array
X = data[columns].values
y = data['survived'].values

print('X tiene forma', X.shape)
print('y tiene forma', y.shape)

En la siguiente celda, interesa contar cuantos casos hay en cada clase, para elegir una metrica apropiada:

_Pista: hay varias formas de hacerlo, por ejemplo, pueden usar la función [`np.unique`](https://numpy.org/doc/stable/reference/generated/numpy.unique.html)_

In [None]:
# === Su código empieza acá ===

# === Su código termina acá ===

Vamos a visualizar algunos ejemplos al azar, utilizando la funcion `show_some_samples`:

In [None]:
def show_some_samples(X, y, columns=columns, n_samples=3, seed=None):
  """
  show random instances from X with its label in y.
  X: dataset to sample, as a numpy array of shape (n_samples, n_features)
  y: labels, as a numpy array of shape (n_samples,)
  columns: list of string with the name of each column, so len(columns) == n_features
  n_samples: number of samples to show
  seed: seed to set before choosing examples
  """
  if seed is not None:
    np.random.seed(seed=seed)

  idx = np.random.choice(len(X), n_samples)

  for i, (x, t) in enumerate(zip(X[idx], y[idx])):
    print(f'==== idx {idx[i]:6d} :: target = {t} ====')
    for feat_name, feat_value in zip(columns, x):
      print(f'\t{feat_name}: {feat_value}')

# aca esta la invocacion, no tienen que cambiar nada
show_some_samples(X, y)

# Pregunta A

Qué debería hacer primero:  


1.   Rellenar los datos faltantes con la politica elegida (por ejemplo, el más frecuente)
2.   Partir el dataset en entrenamiento y test

**Justifique**

*Nota* Ajuste el orden de las siguientes celdas de acuerdo a lo que crea más conveniente.


# 1: Separar train y test
En la siguiente celda, utilizar la funcion `sklearn.model_selection.train_test_split` para separar el dataset en entrenamiento y test. Vamos a tomar un 30% para test, y utilizar como semilla la constante `RANDOM_STATE`:

In [None]:
from sklearn.model_selection import train_test_split

# === Su código empieza acá ===
# X_train, X_test, y_train, y_test = # completar la invocación
X_train, X_test, y_train, y_test =
# === Su código termina acá ===

# El siguiente codigo es un chequeo automatico de que todo va bien
# Si no salta ningun error, es porque esta todo Ok
assert len(X_train) == len(y_train), f'X_train e y_train deberian tener la misma cantidad de elementos: {len(X_train)} != {len(y_train)}'
assert len(X_test) == len(y_test), f'X_test e y_test deberian tener la misma cantidad de elementos: {len(X_test)} != {len(y_test)}'
assert X_train.shape[1] == X_test.shape[1], f'X_train y X_test deberian tener los mismos atributos: {X_test.shape[1]} != {X_test.shape[1]}'
assert len(X) * 0.28 < len(X_test) < len(X) * 0.32, 'Verificar que el test sea 30%'

# 2: Imputar datos faltantes
Utilizar la clase `sklearn.impute.SimpleImputer` para rellenar los atributos faltantes.

Probar la estrategia `mean` y `most_frequent`.

# Pregunta B

**Cuál crees que es más adecuada? Justifique**

In [None]:
from sklearn.impute import SimpleImputer

# === Su código empieza acá ===
# definir el imputer y entrenarlo
imputer =
# === Su código termina acá ===

X_train_fill = imputer.transform(X_train)
X_test_fill = imputer.transform(X_test)

En la siguiente celda vamos a ver como son los contenidos de cada atributo: cuantos hay de cada tipo.

El objetivo de su ejecución es ayudarnos a decidir cuáles son y cómo vamos a codificar los atributos categóricos.

In [None]:
# Iteramos sobre cada una de las columnas
for idx, clm in enumerate(columns):
  print(f'==={idx}: {clm}===')
  # Para cada columna, contamos la cantidad de valores unicos que hay
  unq, cnt = np.unique(X_train_fill[:, idx], return_counts=True)
  for u, c in zip(unq, cnt):
    # mostramos cada valor unico, con la cantidad que hay,
    # y qué porcentaje representa del dataset
    print(f'\t{u}: {c} - {100*c/cnt.sum():5.2f} %')

# 3: Codificar atributos categóricos
El siguente paso va a ser codificar los atributos categóricos.

En clase, mencionamos principalmente dos estrategias: `sklearn.preprocessing.OrdinalEncoder` y `sklearn.preprocessing.OneHotEncoder`. Utilice la (o las) que crea más conveniente.

**PISTA**

Hasta el momento, tenemos un maximo de 8 atributos. Sin embargo, **no todos ellos son categoricos**, por lo que en realidad solo necesito transformar alguno de ellos.

Ademas, para cada uno, podria necesitar una codificacion distinta.

Para esto, nos vamos a ayudar del transformador `sklearn.compose.ColumnTransformer`, que permite aplicar un transformador diferente a cada atributo (columna), y cuyo funcionamiento es el siguiente:

```python
from sklearn.preprocessing import OrdinalEncoder, OneHotEncoder, MinMaxScaler
from sklearn.compose import ColumnTransformer

transformers = [
        # ('nombre_arbitrario', Transformador, [indices])
        ("trnf1", OrdinalEncoder(), [0]),
        ("trnf2", OneHotEncoder(), [1, 2]),
        ("scaler", MinMaxScaler(), [3])
     ]

ct = ColumnTransformer(transformers, remainder='passthrough')

ct.fit(X)
X_trans = ct.transform(X)
```

El `ColumnTransformer` recibe una lista de transformadores a aplicar, indicando a qué columna aplicarlo, y se debe especificar qué hacer con el resto de las columnas. En el ejemplo, `reminder='passthrough'` quiere decir que los valores se pasan de largo sin ninguna modificación.

In [None]:
print(columns)

In [None]:
from sklearn.preprocessing import OrdinalEncoder, OneHotEncoder, MinMaxScaler
from sklearn.compose import ColumnTransformer

# === Su código empieza acá ===
# sugerencia: verificar el shape antes y despues de las transformaciones
# para asegurar que esta todo coherente
# definir el column transformer (ct) y entrenarlo


ct = ColumnTransformer  #continuar la definicion

# === Su código termina acá ===
X_train_fill_num = ct.transform(X_train_fill)



Verificar el shape, que tenga sentido

In [None]:
X_train_fill_num.shape

# Pregunta C
Cuantas columnas tiene, por qué y qué representa cada una?

_Nota: no es estrictamente necesario saber cada columna con qué se corresponde (es decir: que hay en la columna 0? que hay en la columna 1? ... no es necesario responder a ese nivel)._

_Se espera que si en este punto tienen, por ejemplo, 13 columnas, explique cuáles son y cómo llegaste a ellas._


# 4: Seleccionar atributos
Utilizar alguna de las estrategias vistas en clase para quedarnos con 5 atributos.

In [None]:
from sklearn.feature_selection import RFE, SelectKBest, chi2, SequentialFeatureSelector
from sklearn.tree import DecisionTreeClassifier

# === Su código empieza acá ===
# definir el feature selector (fs) y entrenarlo


fs =


# === Su código termina acá ===
X_train_fill_num_selected = fs.transform(X_train_fill_num)

# 5: Entrenar un clasificador
En el siguiente paso, vamos a entrenar un clasificador [`sklearn.tree.DecisionTreeClassifier`](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html) con los datos siguiendo todas las transformaciones que seguimos hasta acá.

Utilizar `sklearn.model_selection.GridSearchCV` o `sklearn.model_selection.RandomizedSearchCV` para seleccionar los mejores parametros.

Utilizar validacion cruzada con 10 particiones. Utilizar una metrica acorde al problema.

# Pregunta D
 - Cuál es la **menor** cantidad de particiones que puedo usar?
 - Cuál es la **mayor** cantidad de particiones que puedo usar?
 - Qué pasa en cada uno de estos extremos?
 - Qué métrica vas a usar? **Justifique brevemente**


In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV

# === Su código empieza acá ===
# definir la grid search o random search  (grid) y entrenarlo
grid =
# === Su código termina acá ===
grid.fit(X_train_fill_num_selected, y_train)

print(grid.best_params_)
grid.best_score_

{'criterion': 'gini', 'max_depth': 2, 'max_features': None, 'splitter': 'random'}


0.6807936838257316

# 6: pipeline
Compactar todos los pasos ejecutados hasta ahora en un mismo Pipeline.

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.model_selection import cross_validate


# === Su código empieza acá ===
# definir la pipeline (pipe) y complete con la metrica seleccionada

pipe =
result = cross_validate(pipe, X_train, y_train, cv=10, scoring='accuracy')
# === Su código termina acá ===


score_mean = result['test_score'].mean()
score_std = result['test_score'].std()

print(f'score obtenido: {score_mean:.3f} ± {score_std:.3f} %')

score obtenido: 0.683 ± 0.060 %




# 7: Obtener el mejor clasificador posible

Ahora que todos los pasos estan dentro de un pipeline, podemos re ver las desiciones tomadas en cada paso para obtener el mejor clasificador posible.


In [None]:
from sklearn.metrics import classification_report
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import GradientBoostingClassifier

# === Su código empieza acá ===
# de ser necesario, agreguen más celdas
# de ser necesario, importen otros modulos
# Si quieren, aprovechen a rever todas las decisiones tomadas hasta acá


# 8: evaluacion


Una vez encontrado este clasificador, evaluarlo sobre el dataset de test con la funcion `sklearn.metrics.classification_report`

In [None]:
from sklearn.metrics import classification_report

# === Su código empieza acá ===
# Utilizar el mejor modelo encontrado para clasificar X_test
# Asegurate de que este entrenado con los datos correctos
y_pred =
# === Su código termina acá ===
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.84      0.81      0.82       264
           1       0.64      0.68      0.66       130

    accuracy                           0.77       394
   macro avg       0.74      0.75      0.74       394
weighted avg       0.77      0.77      0.77       394



# Pregunta E
Suponiendo que el resultado de la celda anterior es este:
```python
              precision    recall  f1-score   support

           0       0.84      0.81      0.82       264
           1       0.64      0.68      0.66       130

    accuracy                           0.77       394
   macro avg       0.74      0.75      0.74       394
weighted avg       0.77      0.77      0.77       394
```

Interprete con sus palabras, para una persona no tecnica, la implicancia de obtener:

- precision = 0.84 para la clase 0
- recall = 0.68 para la clase 1