Hola, no entiendo bien en la parte 5 que hacer con ese pipeline que solo toma como atributo el género del pasajero.
En el pipeline 1 llené los datos con media para numericos y más frecuente para categoricos, luego hice onehotencoder para categoricos como está en el libro:
num_features = data_train_new.select_dtypes(include=['number']).columns
cat_features = data_train_new.select_dtypes(include=['object']).columns
cat_pipeline = Pipeline([
("drop_features", drop_features_transformer),
("relleno", SimpleImputer(strategy="most_frequent")),
("OneHotEncoder", OneHotEncoder(handle_unknown="ignore"))
])
num_pipeline = Pipeline([
("relleno", SimpleImputer(strategy="median")),
])
pipeline1 = ColumnTransformer([
("num", num_pipeline, num_features),
("cat", cat_pipeline, cat_features),
])
No entiendo si lo que esperan con el segundo pipeline es que hagamos más transformaciónes al genero por alguna razón o cuál sería la idea. De todas formas, supongamos que hago otras cosas con ese atributo, la idea sería hacer algo así?
pipeline_total = ColumnTransformer([
("num", num_pipeline, num_features).
("cat", cat_pipeline, cat_features),
("genero", algunatransformacion, ['sex'])
])
Agradecería un poco de ayuda.
Saludos