TAA: Taller 1 parte 5

Hola, no entiendo bien en la parte 5 que hacer con ese pipeline que solo toma como atributo el género del pasajero.

En el pipeline 1 llené los datos con media para numericos y más frecuente para categoricos, luego hice onehotencoder para categoricos como está en el libro:

num_features = data_train_new.select_dtypes(include=['number']).columns

cat_features = data_train_new.select_dtypes(include=['object']).columns

cat_pipeline = Pipeline([

("drop_features", drop_features_transformer),

("relleno", SimpleImputer(strategy="most_frequent")),

("OneHotEncoder", OneHotEncoder(handle_unknown="ignore"))

])

num_pipeline = Pipeline([

("relleno", SimpleImputer(strategy="median")),

])

pipeline1 = ColumnTransformer([

("num", num_pipeline, num_features),

("cat", cat_pipeline, cat_features),

])

No entiendo si lo que esperan con el segundo pipeline es que hagamos más transformaciónes al genero por alguna razón o cuál sería la idea. De todas formas, supongamos que hago otras cosas con ese atributo, la idea sería hacer algo así?

pipeline_total = ColumnTransformer([

("num", num_pipeline, num_features).

("cat", cat_pipeline, cat_features),

("genero", algunatransformacion, ['sex'])

])

Agradecería un poco de ayuda.

Saludos

Re: Taller 1 parte 5

de Guillermo Carbajal - domingo, 16 de marzo de 2025, 08:02

Hola Valentina, en la parte 5 lo que queremos es que entrenen un clasificador que utilice como único atributo al género. No hay que hacerle ninguna transformación adicional. La pregunta que queremos que respondan es ¿Cómo se compara este clasificador simple con los obtenidos en las otras partes, que utilizan otras características además del género?

Saludos,
Guillermo

Re: Taller 1 parte 5

de Valentina Chagas Bas - domingo, 16 de marzo de 2025, 10:15

Ah! Okay, es decir, entrenamos dos veces, una con solo género y otra con las demás características y género y vemos el desempeño en ambas instancias?
Saludos

Re: Taller 1 parte 5

de Guillermo Carbajal - lunes, 17 de marzo de 2025, 09:47

Exacto. La idea es que comparen esos dos casos y también comparen con el clasificador de la parte 11, en donde básicamente pueden usar las características y transformaciones que quieran.

Saludos,
Guillermo