Lab 2 - Parte II

Lab 2 - Parte II

de Maria Sofia Perez Casulo -
Número de respuestas: 1

Buenos días! cómo están?

Tengo un par de dudas con la elección de features y la performance del modelo. En mi caso opté por definir las mismas features de las diapos (parte 1 pág. 16) y agregué un par más de ese estilo. El tema es que cuando realizo la regresión logística me da un accuracy bajísimo, del entorno al 50% (incluso cuando hago el ajuste de los hiperparametros). Me está faltando considerar algo? Porque con este accuracy mi modelo sería equivalente a tirar una moneda :) El recall en sí me dio alto pero porque clasifica casi todo como positivo...


Por otro lado, en mi implementación no hice uso de la función sugerida CountVectorizer() y no termino de entender con qué fin aplicarla. La idea es para hacer algo del estilo a bag of words contando frecuencia de palabras o n-grams y adicionarlo a las features definidas?

Muchas gracias!!

Saludos!

Sofía



En respuesta a Maria Sofia Perez Casulo

Re: Lab 2 - Parte II

de Mathias Etcheverry -
Hola,
en el ejemplo que mostrás está pasando tal cual lo que decis, está clasificando todo cómo positivo (menos 1). Esto posiblemente mejoraría al considerar otros/más atributos.
Respecto a CountVectorizer, el fin es exactamente lo que decís: hacer un bag-of-words utilizando las palabras o n-gramas de palabras. Incluir bow seguramente lleve a mejores resultados.
Saludos