Recuperación de Información y Recomendaciones en la Web
Perfilado de sección
-
webir 2025
________________________________
Los contenidos del curso están organizados por semanas.
Los foros son una herramienta importante en la comunicación entre estudiantes y docente del curso.
Es obligatorio suscribirse al foro de Novedades para recibir los avisos en tiempo y forma.
-
Cronograma del curso:
Publicación lista de inscriptos: 07/03/25
Aceptación de cupo: 08/03/25 al 13/03/25
Publicación lista de estudiantes asignados: 14/03/25
Comienzo de clases: 18/03/2025
Calendario de actividades:
- Semanas 17/3 y 24/3: clases
- Semana 31/3: registro grupos
- Semanas 7/4 y 14/4: monitoreos
- Semanas 21/4, 28/4: trabajo grupos
- 5/5: Entrega 1
- Semanas 5/5, 12/5: clases
- Semanas 19/5, 26/5: monitoreos
- Semanas 2/6, 9/6: trabajo grupos
- Semanas 16/6 y 23/6: presentaciones finales
- 27/6: Entrega 2 (informes finales)
(Primer Semestre: 05.03.2025-10.07.2025)
-
Las clases son los Martes y Jueves de 10:00 a 12:00 horas, presenciales, en el salón B11.
La asistencia es obligatoria como mínimo al 60% de las clases.
Los monitoreos son por zoom: https://salavirtual-udelar.zoom.us/j/88196531147?pwd=WWh2S2Qvc1l1TmQ2RDNHdHZWeWRaZz09
Meeting ID: 881 9653 1147, Passcode: L61=*umqP4 -
Comunicarse por los foros del curso o directamente con la docente Libertad Tansini al mail libertad(at)fing.edu.uy, con asunto [webir], en español o inglés por favor.
-
Capítulos 1 y 2 del libro.
- Enlace a Clase 1 - Recuperación Booleana: https://open.fing.edu.uy/courses/webir/1
- Enlace a Clase 2 - Construcción de Índices: https://open.fing.edu.uy/courses/webir/2
-
Capítulos 2-4 del libro.
- Enlace a Clase 3 - Recuperación Tolerante a Errores: https://open.fing.edu.uy/courses/webir/3 o https://salavirtual-udelar.zoom.us/rec/share/RhfChRMXTRyTXqcMInH4aKMcwCrxlJ8xp7Ud1nuHXDZBxjdlRyC8hP3QBCkr-ogd.tKuThOya1md8IyY4 Passcode: cw^HLa7Y
- Enlace a Clase 4 - Algoritmos para la Construcción de Índices: https://open.fing.edu.uy/courses/webir/4
-
Registro de grupos:
Se deben registrar los grupos en la encuesta Registro de Grupos para Proyectos 2025 hasta el Viernes 4/4, para esto, un estudiante de cada grupo deberá ingresar:
-
-
- números de cédula sin puntos y sin dígito verificador (XXXXXXX), nombres y mails de todos los integrantes del grupo
- tema/s que les interesan para el proyecto (sólo titular/es)
-
Se recomienda leer proyectos de años anteriores para empezar a definir el tema/problema sobre el que quieren hacer el proyecto.
-
Un estudiante de cada grupo deberá ingresar los datos de todos los integrantes del grupo: números de cédula sin puntos y sin dígito verificador (XXXXXXX), nombres y mails. Además deben ingresar el/los temas que les interesen.
Habilitada hasta el Viernes 4/4.
-
-
Los monitoreos son Martes 8/4 y Jueves 10/4 por zoom:
https://salavirtual-udelar.zoom.us/j/88196531147?pwd=WWh2S2Qvc1l1TmQ2RDNHdHZWeWRaZz09
Meeting ID: 881 9653 1147, Passcode: L61=*umqP4
1era entrega hasta el Viernes 5/5 con una definición concreta del problema a abordar, una descripción alto nivel de las componentes del sistema y las herramientas que piensan que van a utilizar en cada una de ellas y los datos (si ya pudieron investigarlo).
-
-
-
-
-
Objetivos
El objetivo principal de este curso es enseñar, en primer lugar, los fundamentos básicos de la recuperación de la información, en particular para Internet y luego profundizar en temas avanzados.
La primera parte del curso presenta los temas principales relacionados con la recuperación de la información, en particular relacionados con el funcionamiento de los motores de búsqueda de Internet, hasta el tema 7(ver Temario).
En la segunda parte del curso se discuten temas avanzados, como por ejemplo la optimización de la recuperación de información mediante “relevance feedback” o expansión de consultas.
Finalmente se tratan los temas de filtrado colaborativo y el análisis de enlaces, para estudiar como el comportamiento colectivo ayuda en la recuperación de la información en Internet.
Metodología de enseñanza
Curso es de carácter teórico y de tipo proyecto-presentación. El estudiante tendrá 4 horas semanales de clases teórico-prácticas (asistencia obligatoria como mínimo al 60% de las clases) y horario de monitoreo/consultas para el apoyo a la realización de un proyecto. Se estima unas 2 horas semanales de estudio adicional y 4 horas semanales para la realización del proyecto.
Forma de evaluación
• Ejecución de un proyecto en la temática del curso.
• Informe escrito del proyecto.
• Presentación oral del proyecto.
Temario
Recuperación booleana
Vocabularios y listas de ocurrencias de palabras
Diccionarios y recuperación tolerante
Construcción y compresión de índices
Puntaje y asignación de pesos en el modelo de espacio vectorial
Calculo de puntajes en un sistema completo de búsqueda
Evaluación de la recuperación de la información
Relevance feedback y expansión de consultas
Recuperación de la información probabilística
Temas avanzados: Modelos de lenguajes para la recuperación de la información, Clasificación de texto con la regla de Bayes y mediante el modelo de espacio vectorial, SVM y aprendizaje automático para documentos, Clustering y clustering jerárquico, y Descomposición de matrices y LSI (latent semantic indexing)
Búsquedas web, web crawling e indices
Análisis de enlaces
Filtrado colaborativo
Bibliografía
Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. http://nlp.stanford.edu/IR-book/