AnaTex: [Teórico] Palabras, Word Types y Tokenización

Buenas tardes,

En la siguiente frase: "La Plaza Matriz está ubicada en la Ciudad Vieja", en la transparencia 7/89 de la clase de tokenización, tenemos lo siguiente:

* Cantidad de Palabras: 9.
* Word types: 8.
* Tokens: 7, 8 o 9.

- Los word types serían los siguientes {'La', 'Plaza Matriz', 'está', 'ubicada', 'en', 'la', 'Ciudad Vieja', '.'}
- Entre los wt se diferencia el primer "La" del segundo por comenzar en mayúsculas.
- Se reconoce el punto como wt pero no como palabra.

¿Son correctas estas afirmaciones?

Muchas gracias, saludos,

Re: [Teórico] Palabras, Word Types y Tokenización

de Gabriela Gaggero Bracco - domingo, 14 de julio de 2024, 10:56

Buen día, a mi no me quedó para nada clara esa diapositiva. Recuerdo en su momento que pensamos varias opciones (Separar Casa y Matriz, separar Cuidad y Vieja, poner o no el punto, tomar la y La como iguales o diferentes) pero ya estoy muy entreverada, ¿podrían aclarar cuáles serían los tipos y tokens en cada uno de los tres casos?
Gracias

Re: [Teórico] Palabras, Word Types y Tokenización

de Diego Velasco Molfino - domingo, 14 de julio de 2024, 11:11

Buen día. Me sumo a las dudas, y agrego una más.

Si los tokens son instancias de los distintos word types, ¿cómo puede haber 8 word types pero solo 7 tokens?

Muchas gracias.

Saludos,

Diego

Re: [Teórico] Palabras, Word Types y Tokenización

de Juan Jose Prada - lunes, 15 de julio de 2024, 11:11

Hola, buen dia.
Vamos por partes en las respuestas a las distintas preguntas en este hilo.

Comienzo por Andrés.
"La Plaza Matriz está ubicada en la Ciudad Vieja" dice que tiene esos distintos valores de tokens, porque estuvimos viendo la importancia de las mayúsculas; sobre todo en palabras tales como “vieja” que en realidad ahí el adjetivo como está con mayúscula, se considera como parte de la entidad Ciudad Vieja (como un lugar). El tema del “La” es ambiguo, estoy de acuerdo, pero el criterio sería que a pesar de comenzar con mayúscula – porque es comienzo de oración – no iría junto a Ciudad Vieja, pero podría entenderse que si (un lugar cuyo nombre es “La Ciudad Vieja”); por eso podría considerarse distinto al otro la. Nosotros lo consideramos como iguales ambos (con y sin mayúsculas)

Dicho esto:
- con la cantidad de palabras no hay duda, siempre son 9
- lo que denominamos tipos (o word types) serían 8, tomando las 2 “la” sin importar las mayúsculas – que es lo que comentábamos más arriba
- el punto lo que comentamos es que será reconocido en la tokenización, los algoritmos claramente siempre lo hacen, pero a los efectos de estos conceptos, no lo considerábamos como token.

Agrego aquí la duda de Gabriela, aparecen los 3 valores de tokens posibles, justamente sin considerar las mayúsculas. 7 sería la cantidad de tokens como está ahí la frase y luego, si poniamos vieja con minúsculas y plaza por ejemplo también, ahí no se consideraban entidades nombradas y por tanto plaza Matriz y Ciudad vieja eran tomados como 4 tokens distintos, con lo cual llegábamos a los 9 de la última línea (u 8 si poníamos sólo una de ellas con minúsculas).

Finalmente, respecto a la duda de Diego, lo de los tipos se refiere a palabras distintas dentro del vocabulario – ver la ppt 5 –. Luego lo de la tokenización es cuando es posible juntar más de una palabra/tipo en unidades que reflejan, por ejemplo como decíamos antes, un lugar, una persona o una organización.

Espero haber respondido a las dudas.
Saludos
Juanjo

Re: [Teórico] Palabras, Word Types y Tokenización

de Carlos Andres Andina Rojas - lunes, 15 de julio de 2024, 18:08

Buenas, Juanjo,

¿Puede que las word-types del ejemplo sean las siguientes?

{"la", "Plaza", "Matriz", "está", "ubicada", "en", "Ciudad", "Vieja"}

Si es así, entonces no podrían haber siete tipos en la siguiente frase:

"Vamos a Buenos Aires a pasear por el Delta del Tigre"

Siguiendo el esquema anterior, las word-types deberían ser las siguientes:

{"Vamos", "a", "Buenos", "Aires", "pasear", "por", "el", "Delta", "del", "Tigre"} --> 10 word-types.

Salvo que en este caso tanto "Buenos Aires", como "Delta del Tigre" sean considerados nombres de entidades. Siendo así, tendríamos lo siguiente:

{"Vamos", "a", "Buenos Aires", "pasear", "por", "el", "Delta del Tigre"} --> 7 word-types (respuesta de la ppt. 6).

Sin embargo, si esto fuera así, también podríamos tener lo siguiente para nuestro ejemplo de marras:

{"la", "Plaza Matriz", "está", "ubicada", "en", "Ciudad Vieja"} --> 6 word-types.

Esto último podría hacerse dado el contexto: somos uruguayos y sabemos que "Plaza Matriz" y "Ciudad Vieja" son entidades: ni "matriz", ni "vieja" los consideramos adjetivos (como tampoco consideramos "buenos" un adjetivo).

Muchas gracias,

Re: [Teórico] Palabras, Word Types y Tokenización

de Juan Jose Prada - lunes, 15 de julio de 2024, 18:52

Hola Andrés, gracias por la pregunta.
La copio debajo y respondo entre líneas.

-------
Buenas, Juanjo,

¿Puede que las word-types del ejemplo sean las siguientes?

{"la", "Plaza", "Matriz", "está", "ubicada", "en", "Ciudad", "Vieja"}

Si es así, entonces no podrían haber siete tipos en la siguiente frase:

"Vamos a Buenos Aires a pasear por el Delta del Tigre"

Correctísimo Andrés, hay 10 porque “a” se repite. Está equivocada la ppt.

Siguiendo el esquema anterior, las word-types deberían ser las siguientes:

{"Vamos", "a", "Buenos", "Aires", "pasear", "por", "el", "Delta", "del", "Tigre"} --> 10 word-types.

Eso mismo

Salvo que en este caso tanto "Buenos Aires", como "Delta del Tigre" sean considerados nombres de entidades. Siendo así, tendríamos lo siguiente:

{"Vamos", "a", "Buenos Aires", "pasear", "por", "el", "Delta del Tigre"} --> 7 word-types (respuesta de la ppt. 6).

Sin embargo, si esto fuera así, también podríamos tener lo siguiente para nuestro ejemplo de marras:

{"la", "Plaza Matriz", "está", "ubicada", "en", "Ciudad Vieja"} --> 6 word-types.

Esto último podría hacerse dado el contexto: somos uruguayos y sabemos que "Plaza Matriz" y "Ciudad Vieja" son entidades: ni "matriz", ni "vieja" los consideramos adjetivos (como tampoco consideramos "buenos" un adjetivo).

No, no. Es como dijimos más arriba.

Lamento la confusión que ocasionó el número de la ppt (ya lo corrijo).
Espero que mi explicación al otro post anterior se haya entendido
Disculpas.
Saludos
Juanjo

Re: [Teórico] Palabras, Word Types y Tokenización

de Carlos Andres Andina Rojas - martes, 16 de julio de 2024, 15:07

Juanjo,

Una última consulta: para el caso de tokens y word-types: ¿los acentos, cedillas, etc. diferencian entidades? Por ejemplo "qué" y "que" ¿son dos tipos de palabras (y tokens) distintos, o son lo mismo?

Saludos y gracias por las respuestas,

Re: [Teórico] Palabras, Word Types y Tokenización

de Juan Jose Prada - martes, 16 de julio de 2024, 16:28

Je, excelente pregunta.

A nivel que lo estamos tratando serían tipos y tokens distintos, ya que consideraríamos al acento.

Pero ojo, si se hiciera un preprocesamiento donde se normalizaran, podrían entenderse que son el mismo. De hecho, debiera verse como se entrenan los modelos, si se hizo ese preprocesamiento previo donde se eliminaban acentos, mayúsculas, etc.

De todas formas, en nuestro caso, vale lo que decía al principio, sería 2 palabras y tipos por tanto distintos. De hecho tienen entradas en el diccionario diferentes y ese podría ser un buen criterio a considerar.

Saludos

Juanjo