[Teórico] Palabras, Word Types y Tokenización

[Teórico] Palabras, Word Types y Tokenización

de Carlos Andres Andina Rojas -
Número de respuestas: 7

Buenas tardes, 

En la siguiente frase: "La Plaza Matriz está ubicada en la Ciudad Vieja", en la transparencia 7/89 de la clase de tokenización, tenemos lo siguiente:

* Cantidad de Palabras: 9. 
* Word types: 8. 
* Tokens: 7, 8 o 9. 

- Los word types serían los siguientes {'La', 'Plaza Matriz', 'está', 'ubicada', 'en', 'la', 'Ciudad Vieja', '.'}
- Entre los wt se diferencia el primer "La" del segundo por comenzar en mayúsculas.
- Se reconoce el punto como wt pero no como palabra.

¿Son correctas estas afirmaciones?

Muchas gracias, saludos, 

En respuesta a Carlos Andres Andina Rojas

Re: [Teórico] Palabras, Word Types y Tokenización

de Gabriela Gaggero Bracco -
Buen día, a mi no me quedó para nada clara esa diapositiva. Recuerdo en su momento que pensamos varias opciones (Separar Casa y Matriz, separar Cuidad y Vieja, poner o no el punto, tomar la y La como iguales o diferentes) pero ya estoy muy entreverada, ¿podrían aclarar cuáles serían los tipos y tokens en cada uno de los tres casos?
Gracias
En respuesta a Gabriela Gaggero Bracco

Re: [Teórico] Palabras, Word Types y Tokenización

de Diego Velasco Molfino -
Buen día. Me sumo a las dudas, y agrego una más.

Si los tokens son instancias de los distintos word types, ¿cómo puede haber 8 word types pero solo 7 tokens?

Muchas gracias.

Saludos,

Diego
En respuesta a Diego Velasco Molfino

Re: [Teórico] Palabras, Word Types y Tokenización

de Juan Jose Prada -
Hola, buen dia.
Vamos por partes en las respuestas a las distintas preguntas en este hilo.

Comienzo por Andrés.
"La Plaza Matriz está ubicada en la Ciudad Vieja" dice que tiene esos distintos valores de tokens, porque estuvimos viendo la importancia de las mayúsculas; sobre todo en palabras tales como “vieja” que en realidad ahí el adjetivo como está con mayúscula, se considera como parte de la entidad Ciudad Vieja (como un lugar). El tema del “La” es ambiguo, estoy de acuerdo, pero el criterio sería que a pesar de comenzar con mayúscula – porque es comienzo de oración – no iría junto a Ciudad Vieja, pero podría entenderse que si (un lugar cuyo nombre es “La Ciudad Vieja”); por eso podría considerarse distinto al otro la. Nosotros lo consideramos como iguales ambos (con y sin mayúsculas)

Dicho esto:
- con la cantidad de palabras no hay duda, siempre son 9
- lo que denominamos tipos (o word types) serían 8, tomando las 2 “la” sin importar las mayúsculas – que es lo que comentábamos más arriba
- el punto lo que comentamos es que será reconocido en la tokenización, los algoritmos claramente siempre lo hacen, pero a los efectos de estos conceptos, no lo considerábamos como token.

Agrego aquí la duda de Gabriela, aparecen los 3 valores de tokens posibles, justamente sin considerar las mayúsculas. 7 sería la cantidad de tokens como está ahí la frase y luego, si poniamos vieja con minúsculas y plaza por ejemplo también, ahí no se consideraban entidades nombradas y por tanto plaza Matriz y Ciudad vieja eran tomados como 4 tokens distintos, con lo cual llegábamos a los 9 de la última línea (u 8 si poníamos sólo una de ellas con minúsculas).

Finalmente, respecto a la duda de Diego, lo de los tipos se refiere a palabras distintas dentro del vocabulario – ver la ppt 5 –. Luego lo de la tokenización es cuando es posible juntar más de una palabra/tipo en unidades que reflejan, por ejemplo como decíamos antes, un lugar, una persona o una organización.

Espero haber respondido a las dudas.
Saludos
Juanjo
En respuesta a Juan Jose Prada

Re: [Teórico] Palabras, Word Types y Tokenización

de Carlos Andres Andina Rojas -
Buenas, Juanjo, 

¿Puede que las word-types del ejemplo sean las siguientes?

{"la", "Plaza", "Matriz", "está", "ubicada", "en", "Ciudad", "Vieja"} 

Si es así, entonces no podrían haber siete tipos en la siguiente frase:

"Vamos a Buenos Aires a pasear por el Delta del Tigre"

Siguiendo el esquema anterior, las word-types deberían ser las siguientes:

{"Vamos", "a", "Buenos", "Aires", "pasear", "por", "el", "Delta", "del", "Tigre"} --> 10 word-types.

Salvo que en este caso tanto "Buenos Aires", como "Delta del Tigre" sean considerados nombres de entidades. Siendo así, tendríamos lo siguiente: 

{"Vamos", "a", "Buenos Aires", "pasear", "por", "el", "Delta del Tigre"} --> 7 word-types (respuesta de la ppt. 6). 

Sin embargo, si esto fuera así, también podríamos tener lo siguiente para nuestro ejemplo de marras:

{"la", "Plaza Matriz", "está", "ubicada", "en", "Ciudad Vieja"} --> 6 word-types. 

Esto último podría hacerse dado el contexto: somos uruguayos y sabemos que "Plaza Matriz" y "Ciudad Vieja" son entidades: ni "matriz", ni "vieja" los consideramos adjetivos (como tampoco consideramos "buenos" un adjetivo). 

Muchas gracias,   
En respuesta a Carlos Andres Andina Rojas

Re: [Teórico] Palabras, Word Types y Tokenización

de Juan Jose Prada -
Hola Andrés, gracias por la pregunta.
La copio debajo y respondo entre líneas.

-------
Buenas, Juanjo, 

¿Puede que las word-types del ejemplo sean las siguientes?

{"la", "Plaza", "Matriz", "está", "ubicada", "en", "Ciudad", "Vieja"} 

Si es así, entonces no podrían haber siete tipos en la siguiente frase:

"Vamos a Buenos Aires a pasear por el Delta del Tigre"


Correctísimo Andrés, hay 10 porque “a” se repite. Está equivocada la ppt.


Siguiendo el esquema anterior, las word-types deberían ser las siguientes:

{"Vamos", "a", "Buenos", "Aires", "pasear", "por", "el", "Delta", "del", "Tigre"} --> 10 word-types.

Eso mismo


Salvo que en este caso tanto "Buenos Aires", como "Delta del Tigre" sean considerados nombres de entidades. Siendo así, tendríamos lo siguiente: 

{"Vamos", "a", "Buenos Aires", "pasear", "por", "el", "Delta del Tigre"} --> 7 word-types (respuesta de la ppt. 6). 

Sin embargo, si esto fuera así, también podríamos tener lo siguiente para nuestro ejemplo de marras:

{"la", "Plaza Matriz", "está", "ubicada", "en", "Ciudad Vieja"} --> 6 word-types. 

Esto último podría hacerse dado el contexto: somos uruguayos y sabemos que "Plaza Matriz" y "Ciudad Vieja" son entidades: ni "matriz", ni "vieja" los consideramos adjetivos (como tampoco consideramos "buenos" un adjetivo).

No, no. Es como dijimos más arriba.
Lamento la confusión que ocasionó el número de la ppt (ya lo corrijo).
Espero que mi explicación al otro post anterior se haya entendido
Disculpas.
Saludos
Juanjo


En respuesta a Juan Jose Prada

Re: [Teórico] Palabras, Word Types y Tokenización

de Carlos Andres Andina Rojas -
Juanjo,

Una última consulta: para el caso de tokens y word-types: ¿los acentos, cedillas, etc. diferencian entidades? Por ejemplo "qué" y "que" ¿son dos tipos de palabras (y tokens) distintos, o son lo mismo?

Saludos y gracias por las respuestas,
En respuesta a Carlos Andres Andina Rojas

Re: [Teórico] Palabras, Word Types y Tokenización

de Juan Jose Prada -

Je, excelente pregunta.

A nivel que lo estamos tratando serían tipos y tokens distintos, ya que consideraríamos al acento.

Pero ojo, si se hiciera un preprocesamiento donde se normalizaran, podrían entenderse que son el mismo. De hecho, debiera verse como se entrenan los modelos, si se hizo ese preprocesamiento previo donde se eliminaban acentos, mayúsculas, etc. 

De todas formas, en nuestro caso, vale lo que decía al principio, sería 2 palabras y tipos por tanto distintos. De hecho tienen entradas en el diccionario diferentes y ese podría ser un buen criterio a considerar.

Saludos

Juanjo