"
]
},
{
"attachments": {},
"cell_type": "markdown",
"metadata": {
"id": "SUfgw7Siq3td"
},
"source": [
"## Introducción"
]
},
{
"attachments": {},
"cell_type": "markdown",
"metadata": {
"id": "I4y3HbLOkOVD"
},
"source": [
"La siguiente actividad propone el abordaje de un problema de procesamiento de lenguaje natural (NLP) utilizando herramientas de *embedding* y modelos RNN. El conjunto de datos que se utilizará es IMDb, el cual corresponde a un problema de clasificación donde se tienen 50000 criticas de películas (35000 de *train* y 15000 de *test*), y se quiere estimar si éstas son críticas positivas (1) o negativas (0). \n",
"\n",
"La propuesta consiste en entender y reproducir los pasos de la sección *Sentiment Analysis* para los datos **sin procesar**, agregando algunas variantes como mitigar el sobreajuste y entender la herramienta *embeddings*.\n",
"\n",
"En este Taller también se introduce la biblioteca *Streamlit*, utilizada para desarrollar prototipos de aplicaciones web de aprendizaje automático. Aquellos que así lo deseen, podrán generar de manera sencilla una aplicación web que clasifique las críticas proporcionadas por los usuarios."
]
},
{
"attachments": {},
"cell_type": "markdown",
"metadata": {
"id": "rY6vz2Ekj8ig"
},
"source": [
"## Objetivos\n",
"\n",
"\n",
"* Aplicar modelos basados en RNN a un problema de NLP.\n",
"* Trabajar con embeddings para secuencias de texto, en particular embeddings preentrenados.\n",
"* Utilizar herramientas para la visualización de embeddings.\n",
"* (Opcional, no evaluado) Desarrollar una aplicación web que clasifique críticas proporcionadas por los usarios "
]
},
{
"attachments": {},
"cell_type": "markdown",
"metadata": {
"id": "common-destiny"
},
"source": [
"## Formas de trabajo"
]
},
{
"attachments": {},
"cell_type": "markdown",
"metadata": {
"id": "xVgxoLgl1-KA"
},
"source": [
"### Opción 1: Trabajar localmente\n",
"Recomendamos esta opción solo si dispones de una GPU. Si no es el caso, sugerimos utilizar Colab."
]
},
{
"attachments": {},
"cell_type": "markdown",
"metadata": {
"id": "moral-gallery"
},
"source": [
"Descargar los datos en su máquina personal y trabajar en su propio ambiente de desarrollo.\n",
"\n",
"`conda activate TAA-py310` \n",
"`jupyter-notebook` "
]
},
{
"attachments": {},
"cell_type": "markdown",
"metadata": {
"id": "UfcTy55R2A7w"
},
"source": [
"Los paquetes faltantes se pueden instalar desde el notebook haciendo: \n",
"` !pip install paquete_faltante` "
]
},
{
"attachments": {},
"cell_type": "markdown",
"metadata": {
"id": "lined-sport"
},
"source": [
"### Opción 2: Trabajar en *Colab*. "
]
},
{
"attachments": {},
"cell_type": "markdown",
"metadata": {
"id": "lined-candle"
},
"source": [
"