IntroCD: Dudas tarea 2

Hola,

Tengo 2 dudas de letra de la tarea 2.

Parte 2,1. Qué es desbalance de datos ? Qué la cantidad de párrafos de cada personaje no es igual ?
Parte 2,3. No nos queda claro sobre qué conjunto de datos debemos entrenar y testear.

Gracias

Re: Dudas tarea 2

de Federico Adrian Molina Schöpf - lunes, 26 de junio de 2023, 10:13

Juan, como estás?

- De por si la cantidad de párrafos de cada personaje no es la misma, aunque hay un balance. Creo que la pregunta refiere a si eso último no se diera, por ejemplo que un personaje tenga 400 párrafos y los otros dos 100 cada uno.
- Por lo que entendí, usando la validación cruzada (del punto 2.2) te permite escoger el conjunto de hiper-parámetros que mejor se ajusta a tu modelo (por ejemplo el que te maximice el accuracy o recall). Con eso, en el punto 2.3 entrenas el modelo con tus datos de entrenamiento (X_train) y testeas con los datos de testeo (X_test).
Así fue como lo pensé yo, quizás le estoy errando en algo.

Saludos, Federico.

Re: Dudas tarea 2

de Juan Machin - lunes, 26 de junio de 2023, 10:51

Hola Federico,

Gracias.

Nosotros hicimos lo mismo sí. Al mejor parámetro que encontramos con la validación cruzada, entrenamos y validamos el modelo con el conjunto X_train y X_test originales.

Re: Dudas tarea 2

de Braulio Rios Ferreira - lunes, 26 de junio de 2023, 11:34

Hola Juan,

- Desbalance de datos es eso, cuando el número de observaciones de alguna clase es mucho mayor. Algunas métricas como la accuracy son muy malas en este tipo de casos, hay que discutir por qué.

- La idea es entrenar con todo el conjunto de train, sin apartar partes para validación como se hace en el punto anterior.