Parte 1C - clean text

Parte 1C - clean text

de Juan Machin -
Número de respuestas: 5

Hola,

Tengo una duda con respecto a la parte 1C, la limpieza de signos de puntuación y otra normalizaciones.

Analizando df_words, nos encontramos con contracciones como "there's" o "dissever'd".

Qué se debe hacer en estos casos ? Asumir que solo vamos a quitar los signos de puntuación o también atacar de alguna forma estas contracciones ?

Saludos

En respuesta a Juan Machin

Re: Parte 1C - clean text

de Federico Adrian Molina Schöpf -
Buenas, me sumo a la duda. Había detectado ese mismo problema, y no solo es cuestión de cambiar el caracter, ya que en ocasiones depende el contexto. A modo de ejemplo, aparecen "there's" y "let's", y en esos casos la contracción no refiere a lo mismo (there is y let us)...

Saludos
En respuesta a Federico Adrian Molina Schöpf

Re: Parte 1C - clean text

de Braulio Rios Ferreira -
Buenas!
Si, la idea es que encuentren algunas de esas contracciones y las sustituyan.
Como mencionamos la clase anterior, no es necesario ser super exhaustivos, con algunas que encuentren y comenten como hicieron la búsqueda, es suficiente.

Sobre el contexto, no hay problema con cambiar la expresión entera por dos palabras separadas en esa parte. E.j: replace(“there’s”, “there is”). Como sea que decidan implementarlo, está bueno que expliquen en el informe las decisiones que tomen.
En respuesta a Braulio Rios Ferreira

Re: Parte 1C - clean text

de Juan Machin -
En respuesta a Juan Machin

Re: Parte 1C - clean text

de Federico Matonte Martinez -
En esta respuesta de stack overflow hay una lista que con un poco de labro puede ser bastante útil:
https://stackoverflow.com/questions/19790188/expanding-english-language-contractions-in-python