Buenos días! cómo están?
Tengo un par de dudas con la elección de features y la performance del modelo. En mi caso opté por definir las mismas features de las diapos (parte 1 pág. 16) y agregué un par más de ese estilo. El tema es que cuando realizo la regresión logística me da un accuracy bajísimo, del entorno al 50% (incluso cuando hago el ajuste de los hiperparametros). Me está faltando considerar algo? Porque con este accuracy mi modelo sería equivalente a tirar una moneda :) El recall en sí me dio alto pero porque clasifica casi todo como positivo...
Por otro lado, en mi implementación no hice uso de la función sugerida CountVectorizer() y no termino de entender con qué fin aplicarla. La idea es para hacer algo del estilo a bag of words contando frecuencia de palabras o n-grams y adicionarlo a las features definidas?
Muchas gracias!!
Saludos!
Sofía