IntroCD: Parte 1C - clean text

Hola,

Tengo una duda con respecto a la parte 1C, la limpieza de signos de puntuación y otra normalizaciones.

Analizando df_words, nos encontramos con contracciones como "there's" o "dissever'd".

Qué se debe hacer en estos casos ? Asumir que solo vamos a quitar los signos de puntuación o también atacar de alguna forma estas contracciones ?

Saludos

Re: Parte 1C - clean text

de Federico Adrian Molina Schöpf - sábado, 13 de mayo de 2023, 12:35

Buenas, me sumo a la duda. Había detectado ese mismo problema, y no solo es cuestión de cambiar el caracter, ya que en ocasiones depende el contexto. A modo de ejemplo, aparecen "there's" y "let's", y en esos casos la contracción no refiere a lo mismo (there is y let us)...

Saludos

Re: Parte 1C - clean text

de Braulio Rios Ferreira - domingo, 14 de mayo de 2023, 10:50

Buenas!
Si, la idea es que encuentren algunas de esas contracciones y las sustituyan.
Como mencionamos la clase anterior, no es necesario ser super exhaustivos, con algunas que encuentren y comenten como hicieron la búsqueda, es suficiente.

Sobre el contexto, no hay problema con cambiar la expresión entera por dos palabras separadas en esa parte. E.j: replace(“there’s”, “there is”). Como sea que decidan implementarlo, está bueno que expliquen en el informe las decisiones que tomen.

Re: Parte 1C - clean text

de Juan Machin - domingo, 14 de mayo de 2023, 11:48

Impecable.

Gracias !

Re: Parte 1C - clean text

de Federico Matonte Martinez - domingo, 14 de mayo de 2023, 11:56

En esta respuesta de stack overflow hay una lista que con un poco de labro puede ser bastante útil:
https://stackoverflow.com/questions/19790188/expanding-english-language-contractions-in-python

Re: Parte 1C - clean text

de Federico Adrian Molina Schöpf - domingo, 14 de mayo de 2023, 18:01

Buenísimo, gracias por el aporte.
Saludos, Federico.