"
]
},
{
"cell_type": "markdown",
"id": "641ec10d",
"metadata": {
"id": "functioning-mortality"
},
"source": [
"En esta actividad se trabajará con el dataset [Titanic](https://www.kaggle.com/c/titanic/overview) disponible en Kaggle. El objetivo es predecir si un pasajero sobrevivirá a partir de atributos personales. La descripción de los atributos se encuentra en la misma [página](https://www.kaggle.com/c/titanic/data) en que se pueden bajar los datos. "
]
},
{
"cell_type": "markdown",
"id": "cf515408",
"metadata": {
"id": "immediate-rwanda"
},
"source": [
"## Objetivos Generales del Taller\n",
" - Abordar un problema de aprendizaje automático de punta a punta\n",
" - Familiarizarse con la biblioteca **pandas** para levantar y explorar los datos\n",
" - Familiarizarse con los **pipelines** de **scikit-learn** como una forma de resolver un problema en forma ordenada."
]
},
{
"cell_type": "markdown",
"id": "dce3faac",
"metadata": {
"id": "graphic-longitude"
},
"source": [
"## Formas de trabajo \n",
"\n",
"Se podrá elegir entre dos formas de trabajo: instalación local o Colab. Para trabajar en clase Colab es completamente adecuado. Para ejecutar corridas que demanden mucho tiempo (por ejemplo, búsqueda de hiperparámetros) puede ser conveniente trabajar localmente. A continuación se explica cómo proceder en cada caso. Cualquiera sea la elección se recomienda trabajar con `scikit-learn>1.1.0`."
]
},
{
"cell_type": "markdown",
"id": "bd1f2c8d",
"metadata": {
"id": "similar-surgery"
},
"source": [
"### Opción 1: Trabajar localmente"
]
},
{
"cell_type": "markdown",
"id": "6a69d951",
"metadata": {
"id": "40f58d99"
},
"source": [
"#### Ambiente de Trabajo"
]
},
{
"cell_type": "markdown",
"id": "5337d0a6",
"metadata": {
"id": "2ceaed09"
},
"source": [
"Deberá trabajar en su propio ambiente de desarrollo. Ej: **conda environment**. En caso de no contar con uno deberá crearlo ejecutando la siguiente línea de comando: \n",
"\n",
"`conda create -n TAA-py311 python=3.11` \n",
"\n",
"Una vez creado se procede a activarlo: \n",
"\n",
"`conda activate TAA-py311` \n",
"\n",
"Una vez activado se instalan en el entorno los paquetes que se utilizaran: \n",
"\n",
"`pip install numpy matplotlib pandas \"scikit-learn>1.1.0\" notebook` \n",
"\n",
"Una vez finalizada la instalación abra el Jupyter Notebook:\n",
"\n",
"`jupyter-notebook`"
]
},
{
"cell_type": "markdown",
"id": "71a72bc4",
"metadata": {
"id": "fresh-prize"
},
"source": [
"Los paquetes faltantes se pueden instalar desde el notebook haciendo: \n",
"\n",
"`!pip install paquete_faltante`"
]
},
{
"cell_type": "markdown",
"id": "e83900c9",
"metadata": {
"id": "baeed628",
"jp-MarkdownHeadingCollapsed": true
},
"source": [
"#### Configuración del API token "
]
},
{
"cell_type": "markdown",
"id": "0f84354a",
"metadata": {
"id": "65511396"
},
"source": [
"A continuación, vaya a su cuenta de [Kaggle](https://www.kaggle.com/) (o cree una si aún no lo ha hecho), haga clic en el icono de perfil en la esquina superior derecha de la pantalla y seleccione \"Your Account\" en la lista desplegable. Luego, seleccione la viñeta \"Account\" y haga clic en \"Create new API token\". Entonces un archivo llamado kaggle.json se descargará automáticamente a su carpeta de descargas. Este archivo contiene sus credenciales de inicio de sesión para permitirle acceder a la API."
]
},
{
"cell_type": "markdown",
"id": "5679841f",
"metadata": {
"id": "078a13be"
},
"source": [
"Cree (en caso de no existir) la carpeta `.kaggle`. Modifique *nombre_usuario* por el nombre del usuario donde está trabajando."
]
},
{
"cell_type": "code",
"execution_count": null,
"id": "daa56599",
"metadata": {
"id": "d93098d6"
},
"outputs": [],
"source": [
"!mkdir C:\\Users\\nombre_usuario\\.kaggle"
]
},
{
"cell_type": "markdown",
"id": "b656757b",
"metadata": {
"id": "1e95cc52"
},
"source": [
"Mueva el archivo descargado a la carpeta creada. "
]
},
{
"cell_type": "code",
"execution_count": null,
"id": "f53f7709",
"metadata": {
"id": "6ac83b45",
"outputId": "20d75cc7-5a6c-4a10-fdf3-0e03dfac8a2b"
},
"outputs": [],
"source": [
"#Comando en Windows\n",
"!move C:\\Users\\nombre_usuario\\Downloads\\kaggle.json C:\\Users\\nombre_usuario\\.kaggle\n",
"\n",
"#Comando en Linux\n",
"# !mv C:\\Users\\nombre_usuario\\Downloads\\kaggle.json C:\\Users\\nombre_usuario\\.kaggle"
]
},
{
"cell_type": "markdown",
"id": "634e8a7b",
"metadata": {
"id": "efficient-thailand",
"jp-MarkdownHeadingCollapsed": true
},
"source": [
"### Opción 2: Trabajar en *Colab*. "
]
},
{
"cell_type": "markdown",
"id": "a1ee4a73",
"metadata": {
"id": "compound-criminal"
},
"source": [
"Se puede trabajar en Google Colab. Para ello es necesario contar con una cuenta de **google drive** y ejecutar un notebook almacenado en dicha cuenta. De lo contrario, no se conservarán los cambios realizados en la sesión. En caso de ya contar con una cuenta, se puede abrir el notebook y luego ir a `Archivo-->Guardar una copia en drive`. \n",
"\n",
"