Dudas tarea 2

Dudas tarea 2

de Juan Machin -
Número de respuestas: 3

Hola,

Tengo 2 dudas de letra de la tarea 2.

  • Parte 2,1. Qué es desbalance de datos ? Qué la cantidad de párrafos de cada personaje no es igual ?
  • Parte 2,3. No nos queda claro sobre qué conjunto de datos debemos entrenar y testear.
Gracias
En respuesta a Juan Machin

Re: Dudas tarea 2

de Federico Adrian Molina Schöpf -
Juan, como estás?

- De por si la cantidad de párrafos de cada personaje no es la misma, aunque hay un balance. Creo que la pregunta refiere a si eso último no se diera, por ejemplo que un personaje tenga 400 párrafos y los otros dos 100 cada uno.
- Por lo que entendí, usando la validación cruzada (del punto 2.2) te permite escoger el conjunto de hiper-parámetros que mejor se ajusta a tu modelo (por ejemplo el que te maximice el accuracy o recall). Con eso, en el punto 2.3 entrenas el modelo con tus datos de entrenamiento (X_train) y testeas con los datos de testeo (X_test).
Así fue como lo pensé yo, quizás le estoy errando en algo.

Saludos, Federico.
En respuesta a Federico Adrian Molina Schöpf

Re: Dudas tarea 2

de Juan Machin -
Hola Federico,

Gracias.

Nosotros hicimos lo mismo sí. Al mejor parámetro que encontramos con la validación cruzada, entrenamos y validamos el modelo con el conjunto X_train y X_test originales.
En respuesta a Juan Machin

Re: Dudas tarea 2

de Braulio Rios Ferreira -

Hola Juan,

- Desbalance de datos es eso, cuando el número de observaciones de alguna clase es mucho mayor. Algunas métricas como la accuracy son muy malas en este tipo de casos, hay que discutir por qué.

- La idea es entrenar con todo el conjunto de train, sin apartar partes para validación como se hace en el punto anterior.