[Teórico] Palabras, Word Types y Tokenización

Re: [Teórico] Palabras, Word Types y Tokenización

de Juan Jose Prada -
Número de respuestas: 0

Je, excelente pregunta.

A nivel que lo estamos tratando serían tipos y tokens distintos, ya que consideraríamos al acento.

Pero ojo, si se hiciera un preprocesamiento donde se normalizaran, podrían entenderse que son el mismo. De hecho, debiera verse como se entrenan los modelos, si se hizo ese preprocesamiento previo donde se eliminaban acentos, mayúsculas, etc. 

De todas formas, en nuestro caso, vale lo que decía al principio, sería 2 palabras y tipos por tanto distintos. De hecho tienen entradas en el diccionario diferentes y ese podría ser un buen criterio a considerar.

Saludos

Juanjo