#  <center> Taller  de Aprendizaje Automático </center>
##  <center> Taller 1: Titanic  </center>

En esta actividad se trabajará con el dataset [Titanic](https://www.kaggle.com/c/titanic/overview) disponible en Kaggle. El objetivo es predecir si un pasajero sobrevivirá a partir de atributos personales. La descripción de los atributos se encuentra en la misma [página](https://www.kaggle.com/c/titanic/data) en que se pueden bajar los datos. 

## Objetivos Generales del Taller
 - Abordar un problema de aprendizaje automático de punta a punta
 - Familiarizarse con la biblioteca **pandas** para levantar y explorar los datos
 - Familiarizarse con los **pipelines** de **scikit-learn** como una forma de resolver un problema en forma ordenada.

## Formas de trabajo 

Se podrá elegir entre dos formas de trabajo: instalación local o Colab. Para trabajar en clase Colab es completamente adecuado. Para ejecutar corridas que demanden mucho tiempo (por ejemplo, búsqueda de hiperparámetros) puede ser conveniente trabajar localmente. A continuación se explica cómo proceder en cada caso. Cualquiera sea la elección se recomienda trabajar con `scikit-learn>1.1.0`.

### Opción 1: Trabajar localmente

####  Ambiente de Trabajo

Deberá trabajar en su propio ambiente de desarrollo. Ej: **conda environment**.  En caso de no contar con uno deberá crearlo ejecutando la siguiente línea de comando: 

`conda create -n TAA-py311 python=3.11`  

Una vez creado se procede a activarlo: 

`conda activate TAA-py311`  

Una vez activado se instalan en el entorno los paquetes que se utilizaran: 

`pip install numpy matplotlib pandas "scikit-learn>1.1.0" notebook`   

Una vez finalizada la instalación abra el Jupyter Notebook:

`jupyter-notebook`

Los paquetes faltantes se pueden instalar desde el notebook haciendo:    

`!pip install paquete_faltante`

####  Configuración del API token 

A continuación, vaya a su cuenta de [Kaggle](https://www.kaggle.com/) (o cree una si aún no lo ha hecho), haga clic en el icono de perfil en la esquina superior derecha de la pantalla y seleccione "Your Account" en la lista desplegable. Luego, seleccione la viñeta "Account" y haga clic en "Create new API token". Entonces un archivo llamado kaggle.json se descargará automáticamente a su carpeta de descargas. Este archivo contiene sus credenciales de inicio de sesión para permitirle acceder a la API.

Cree (en caso de no existir) la carpeta `.kaggle`. Modifique *nombre_usuario* por el nombre del usuario donde está trabajando.

In [None]:
!mkdir C:\Users\nombre_usuario\.kaggle

Mueva el archivo descargado a la carpeta creada. 

In [None]:
#Comando en Windows
!move C:\Users\nombre_usuario\Downloads\kaggle.json C:\Users\nombre_usuario\.kaggle

#Comando en Linux
# !mv C:\Users\nombre_usuario\Downloads\kaggle.json C:\Users\nombre_usuario\.kaggle

### Opción 2:  Trabajar en *Colab*. 

Se puede trabajar en Google Colab. Para ello es necesario contar con una cuenta de **google drive** y ejecutar un notebook almacenado en dicha cuenta. De lo contrario, no se conservarán los cambios realizados en la sesión. En caso de ya contar con una cuenta, se puede abrir el notebook y luego ir a `Archivo-->Guardar una copia en drive`.  

<table align="left">
  <td>
    <a target="_blank" href="https://colab.research.google.com/github/TAA-fing/TAA-2024/blob/main/talleres/taller1_titanic.ipynb"><img src="https://www.tensorflow.org/images/colab_logo_32px.png" />Ejecutar en Google Colab</a>
  </td>
</table>

La siguiente celda monta el disco personal del drive:

In [None]:
from google.colab import drive
drive.mount('/content/drive')

####  Configuración del API token en Colab

A continuación, vaya a su cuenta de [Kaggle](https://www.kaggle.com/) (o cree una si aún no lo ha hecho), haga clic en el icono de perfil en la esquina superior derecha de la pantalla y seleccione "Your Account" en la lista desplegable. Luego, seleccione la viñeta "Settings" y en la sección API haga clic en "Create new token". Entonces un archivo llamado kaggle.json se descargará automáticamente a su carpeta de descargas. Este archivo contiene sus credenciales de inicio de sesión para permitirle acceder a la API.

La siguiente celda realiza la configuración necesaria para obtener datos desde la plataforma Kaggle. Le solicitará que suba el archivo kaggle.json descargado anteriormente.

In [None]:
import warnings
warnings.filterwarnings('ignore')
from google.colab import files

# El siguiente archivo solicitado es para habilitar la API de Kaggle en el entorno que está trabajando.
# Este archivo se descarga entrando a su perfíl de Kaggle, en la sección Settings/API, presionando donde dice: Create New Token

uploaded = files.upload()

for fn in uploaded.keys():
    print('User uploaded file "{name}" with length {length} bytes'.format(
      name=fn, length=len(uploaded[fn])))

#Then move kaggle.json into the folder where the API expects to find it.
!mkdir -p ~/.kaggle/ && mv kaggle.json ~/.kaggle/ && chmod 600 ~/.kaggle/kaggle.json

## Descarga de los datos

###  Unirse a la competición

Vaya a la competición de [Titanic](https://www.kaggle.com/c/titanic) en Kaggle y presione **Join Competition**. 

###  Instalar el paquete *kaggle*

Para obtener los datos de Kaggle primero se instalará la librería de **Kaggle**

In [None]:
!pip install kaggle

Si la instalación fue exitosa, el siguiente comando debería mostrar una lista de todas las competiciones activas de Kaggle. 

In [None]:
!kaggle competitions list

####  Descargar y descomprimir los datos

Ejecutar el siguiente comando para bajar los datos de la competencia *titanic*.

In [None]:
!kaggle competitions download -c titanic

Descomprima el archivo descargado:

In [None]:
# Forma 1
!unzip titanic.zip

# Forma 2
# import zipfile
# with zipfile.ZipFile("titanic.zip","r") as zip_ref:
#     zip_ref.extractall("./")

##  Parte 1 - Carga de datos

#### Ejercicios:

 - Levantar el conjunto de entrenamiento utilizando el método `read_csv()` de la biblioteca **pandas**. 
 - Explorar los métodos `head()`, `info()` y `describe()` para obtener información relevante de los datos. 

In [None]:
# data_train = 

## Parte 2 - Exploración con pandas

#### Ejemplos de manipulación con Pandas  

**1)** Ejemplo de filtrado utilizando `df.loc[..]`. ¿Quiénes eran los pasajeros mayores de 60 años que viajaban en tercera clase? ¿Cuáles sobrevivieron?

In [None]:
data_train.loc[(data_train['Age'] > 60) & (data_train['Pclass'] == 3)]

In [None]:
data_train.loc[(data_train['Age'] > 60) & (data_train['Pclass'] == 3) & (data_train['Survived'] == 1)]

**2)**  Ejemplo de manipular columnas y filas de dataframes. Generar un vector con las etiquetas a partir del nombre.

In [None]:
y_target = data_train['Survived']
y_target

In [None]:
y_target = data_train.loc[:, 'Survived']
y_target

**3)** Generar el vector de etiquetas a partir del número de la columna.  

In [None]:
column_names = data_train.columns.to_list()
print(column_names)

index_survived = column_names.index('Survived')
print(index_survived)

y_target = data_train.iloc[:,index_survived]
y_target

#### Ejercicios:
 - Identificar el atributo a predecir 
 - Obtener el porcentaje de pasajeros del conjunto de entrenamiento que sobrevivió. ¿Es un problema de clases desbalanceadas? 
 - Identificar los atributos numéricos y categóricos.
 - En caso de contar con datos categóricos identifique las categorías.
 - Obtener el porcentaje de pasajeros dentro de cada categoría que sobrevivió. Asegúrese de poder responder preguntas del tipo: ¿Qué porcentaje de mujeres sobrevivieron? ¿Cuál fue el porcentaje de paraseros de primera clase (PClass 1) que sobrevivió?)
 - Identificar y cuantificar datos faltantes.


## Parte 3 - Descubrir y visualizar los datos para obtener información relevante.  


 - Explore [métodos de visualización](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.html) con **pandas**. Para graficar con *pandas* es necesario importar *matplotlib*. Puede ser útil comparar los histogramas de cada clase contra los histogramas de supervivencia en cada clase. 
 - Estudie la correlación de las características con la etiqueta a predecir. Se sugiere utilizar el método `corr()`.
 - Concluya que factores tuvieron mayor incidencia en la supervivencia o no de un pasajero.

## Parte 4 - Un Primer Pipeline 

- Construir un **pipeline** que realice el preprocesamiento de los datos necesario para que éstos puedan ser utilizados por un clasificador de *sklearn*. Dicho preprocesamiento deberá en primera instancia realizar las siguientes tareas:

    1. Descartar los atributos *Cabin*, *Name* y *Ticket*.
    2. Rellenar datos faltantes con algún criterio elegido

- Acceda a los elementos del pipeline. Para acceder a las distintas transformaciones se usa `named_transformers_` y para acceder a los steps de cada transformación `named_steps`  

In [None]:
preprocessing_pipeline_default.get_feature_names_out()

In [None]:
preprocessing_pipeline_default.named_transformers_

In [None]:
preprocessing_pipeline_default.named_transformers_['cat'].named_steps['ohe'].categories_

## Parte 5 - Un Segundo Pipeline

- Realizar un **pipeline** que utilice como único atributo el género del pasajero. 

## Parte 6 - Clasificación con Regresión Logística

- Con los datos procesados por los pipelines de la Parte 4 y Parte 5 entrenar un modelo de *Regresión Logística* con parámetros por defecto y estimar el desempeño mediante validación cruzada 5-folds.
- Observe los desempeños obtenidos. ¿Qué puede decir sobre los datos? ¿Y sobre el modelo?

## Parte 7 - Busqueda de Hiperparámetros

- Utilizar *Grid Search* para encontrar el valor óptimo del parámetro *C* del mejor clasificador de *Regresión Logística* obtenido de la parte anterior. 

## Parte 8 - Guardar Modelo

- Guarde el modelo obtenido de la parte anterior.
 
*Observación: Es usual que entrenar modelos tome un tiempo considerable por lo que el guardado del modelo resulta de vital importancia.*

## Parte 9 - Generar predicciones en conjunto de test

- Levante el modelo guardado en la parte anterior.
- Genere las predicciones con el conjunto de test.

## Parte 10 - Generar una Kaggle Submission

- Generar una Kaggle Submission utilizando las prediciones obtenidas en el conjunto de Test. Puede ver un ejemplo de como hacerlo [aquí](https://www.kaggle.com/jlawman/complete-beginner-your-first-titanic-submission?scriptVersionId=1700267&cellId=17). 

Una vez generado el archivo *.csv*, la submission se puede realizar subiendo directamente el archivo a la página de Kaggle o desde la línea de comandos como:

`!kaggle competitions submit -c [COMPETITION] -f [FILE] -m [MESSAGE]`  

In [None]:
!kaggle competitions submit -c titanic -f my_first_titanic_predictions.csv -m primer_submission

## Parte 11 - En busca de un mejor modelo

- Generar un nuevo **pipeline** y evaluar si éste genera un mejor clasificador. Algunas de las opciones que se pueden explorar son las siguientes:
    * Evaluar la característica Pclass como dato numérico, ordinal o categórico.    
    * Estudiar qué escalado sirve en los atributos numéricos   
    * Agregar nuevas características y/o sustituir las existentes. Por ejemplo:   
        - Reemplazar *SibSp* y *Parch* por la suma     
        - Discretizar algún atributo numérico, por ejemplo la edad.
    * Estudiar algún modelo alternativo (*Se sugiere experimentar con SVM o RandomForestClassifier*) 
    * Construir un **pipeline** que permita determinar automáticamente qué grupo de características utilizar y qué estrategia seguir para lidiar con datos faltantes.