Recuperación de Información y Recomendaciones en la Web
Diagrama semanal
-
webir 2024
________________________________
Los contenidos del curso están organizados por semanas.
Los foros son una herramienta importante en la comunicación entre estudiantes y docente del curso.
Es obligatorio suscribirse al foro de Novedades para recibir los avisos en tiempo y forma.
-
Ver Enviar retroalimentación
-
Cronograma del curso:
Publicación lista de inscriptos: 07/03/2024
Aceptación de cupo: 12/03/2024 - 21/03/2024
Publicación lista de estudiantes asignados: 22/03/2024
Comienzo de clases: 2/04/2024
- Semanas 1/4 y 8/4: clases
- 15/3: registro grupos
- Semanas 22/4 y 29/4: monitoreos
- 13/5: Entrega 1
- Semanas 6/5 y 13/5: trabajo grupos
- Semanas 20/5 y 27/5: clases
- Semanas 3/6 y 10/6: monitoreos y trabajo grupos
- Semanas 17/6 y 24/6: presentaciones finales
- Semana 1/7: Entrega 2 (informes finales)
(Primer Semestre: 04.03.2024 -15.07.2024)
-
-
Las clases son los Martes y Jueves de 10:00 a 12:00 horas, presenciales. Salón B11
La asistencia es obligatoria como mínimo al 60% de las clases.Los monitoreos son por zoom: https://salavirtual-udelar.zoom.us/j/88196531147?pwd=WWh2S2Qvc1l1TmQ2RDNHdHZWeWRaZz09
Meeting ID: 881 9653 1147, Passcode: L61=*umqP4 -
Comunicarse por los foros del curso o directamente con la docente Libertad Tansini al mail libertad(at)fing.edu.uy, con asunto [webir], en español o inglés por favor.
-
1era entrega (ver fecha de entrega en cronograma del curso)
- Deberá contener una definición concreta del
problema a abordar, una descripción alto nivel de las componentes del
sistema, los datos y las herramientas que piensan que van a utilizar en cada una de
ellas (si ya pudieron investigarlo).
- Se espera un documento de 1-2 carillas y que tenga las referencias necesarias.
- La
entrega se debe hacer al mail
libertad(at)fing.edu.uy, con asunto "[webir] Entrega 1 Grupo XX",
donde XX corresponde al número de grupo que figura en el calendario de
monitoreos.
- El nombre del archivo debe ser "2024E1GXX" y en formato pdf.
2da entrega - Informe Final (ver fecha de entrega en cronograma del curso)- Puede tener las secciones: Introducción, Problema, Enfoque de la solución, Diseño, Implementación, Funcionalidades y uso, Evaluación y resultados, Conclusiones, Trabajo Futuro
- Se espera un documento de 6-20 carillas y que tenga las referencias necesarias.
- La
entrega se debe hacer al mail
libertad(at)fing.edu.uy, con asunto "[webir] Entrega 2 Grupo XX",
donde XX corresponde al número de grupo que figura en el calendario de
monitoreos.
- El nombre del archivo debe ser "2024E2GXX" y el mismo debe estar en formato pdf.
- Deberá contener una definición concreta del
problema a abordar, una descripción alto nivel de las componentes del
sistema, los datos y las herramientas que piensan que van a utilizar en cada una de
ellas (si ya pudieron investigarlo).
-
Capítulos 1 y 2 del libro.
- Enlace a Clase 1 - Recuperación Booleana: https://open.fing.edu.uy/courses/webir/1
- Enlace a Clase 2 - Construcción de Índices: https://open.fing.edu.uy/courses/webir/2
-
Capítulos 2-4 del libro.
- Enlace a Clase 3 - Recuperación Tolerante a Errores: https://open.fing.edu.uy/courses/webir/3 o https://salavirtual-udelar.zoom.us/rec/share/RhfChRMXTRyTXqcMInH4aKMcwCrxlJ8xp7Ud1nuHXDZBxjdlRyC8hP3QBCkr-ogd.tKuThOya1md8IyY4 Passcode: cw^HLa7Y
- Enlace a Clase 4 - Algoritmos para la Construcción de Índices: https://open.fing.edu.uy/courses/webir/4
-
Registro de grupos:
- se deben registrar los grupos en la encuesta hasta el Viernes 19/4: Registro de Grupos para Proyectos 2024
- para esto, un estudiante de cada grupo deberá ingresar números de cédula sin puntos y sin dígito verificador (XXXXXXX), nombre y mail.de todos los integrantes del grupo.
- se recomienda leer proyectos de años anteriores
- empezar a definir el tema/problema sobre el que quieren hacer el proyecto
-
Un estudiante de cada grupo deberá ingresar los datos de todos los integrantes del grupo: números de cédula sin puntos y sin dígito verificador (XXXXXXX), nombre y mail.
Habilitada hasta el Viernes 19/4.
-
Los monitoreos son Martes 23/4, Jueves 25/4 y Martes 30/4 por zoom:
https://salavirtual-udelar.zoom.us/j/88196531147?pwd=WWh2S2Qvc1l1TmQ2RDNHdHZWeWRaZz09
Meeting ID: 881 9653 1147, Passcode: L61=*umqP4
1era entrega hasta el Viernes 13/5 con una definición concreta del problema a abordar, una descripción alto nivel de las componentes del sistema y las herramientas que piensan que van a utilizar en cada una de ellas y los datos (si ya pudieron investigarlo).
-
Semana del 20 de Mayo- Índices Dinámicos, Compresión de Índices, Relevancia y Modelo de Espacio Vectorial
Capítulos 4 y 5 del libro.
- Enlace a Clase 5 - Compresión de Índices - Vocabulario: https://open.fing.edu.uy/courses/webir/5 o https://salavirtual-udelar.zoom.us/rec/share/GbiqD-KwZIJL1jTXWEkhPCrBtDUj3Km-LEgRMRCRED4xiIENDU5xhbyBqkRwSXsF.5_PV7oLsHQoyWK_p
Passcode: Yfn7VK+Q
- Presentación Clase 5
- Enlace a Clase 6 - Compresión de Índices - Postings: https://open.fing.edu.uy/courses/webir/6
- Presentación Clase 6
Capítulos 6, 7 y 9 del libro.
- Enlace a Clase 7 - Relevancia y Modelo de espacio vectorial: https://open.fing.edu.uy/courses/webir/7
- Presentación Clase 7
- Enlace a Clase 5 - Compresión de Índices - Vocabulario: https://open.fing.edu.uy/courses/webir/5 o https://salavirtual-udelar.zoom.us/rec/share/GbiqD-KwZIJL1jTXWEkhPCrBtDUj3Km-LEgRMRCRED4xiIENDU5xhbyBqkRwSXsF.5_PV7oLsHQoyWK_p
Passcode: Yfn7VK+Q
-
Capítulos 9 y 21 del libro.
- Enlace a Clase 8 - Estructura de Internet: HITS y PageRank: https://open.fing.edu.uy/courses/webir/8
- Presentación Clase 8
- Enlace a Clase 8 - Estructura de Internet: HITS y PageRank: https://open.fing.edu.uy/courses/webir/8
-
Los monitoreos son los Martes y Jueves por zoom:
https://salavirtual-udelar.zoom.us/j/88196531147?pwd=WWh2S2Qvc1l1TmQ2RDNHdHZWeWRaZz09
Meeting ID: 881 9653 1147, Passcode: L61=*umqP4
-
La presentaciones son los Martes y Jueves 10:00 a 12:00 horas. Presenciales en el mismo salón de clases.
-
-
-
-
Objetivos
El objetivo principal de este curso es enseñar, en primer lugar, los fundamentos básicos de la recuperación de la información, en particular para Internet y luego profundizar en temas avanzados.
La primera parte del curso presenta los temas principales relacionados con la recuperación de la información, en particular relacionados con el funcionamiento de los motores de búsqueda de Internet, hasta el tema 7(ver Temario).
En la segunda parte del curso se discuten temas avanzados, como por ejemplo la optimización de la recuperación de información mediante “relevance feedback” o expansión de consultas.
Finalmente se tratan los temas de filtrado colaborativo y el análisis de enlaces, para estudiar como el comportamiento colectivo ayuda en la recuperación de la información en Internet.
Metodología de enseñanza
Curso es de carácter teórico y de tipo proyecto-presentación. El estudiante tendrá 4 horas semanales de clases teórico-prácticas (asistencia obligatoria como mínimo al 60% de las clases) y horario de monitoreo/consultas para el apoyo a la realización de un proyecto. Se estima unas 2 horas semanales de estudio adicional y 4 horas semanales para la realización del proyecto.
Forma de evaluación
• Ejecución de un proyecto en la temática del curso.
• Informe escrito del proyecto.
• Presentación oral del proyecto.
Temario
Recuperación booleana
Vocabularios y listas de ocurrencias de palabras
Diccionarios y recuperación tolerante
Construcción y compresión de índices
Puntaje y asignación de pesos en el modelo de espacio vectorial
Calculo de puntajes en un sistema completo de búsqueda
Evaluación de la recuperación de la información
Relevance feedback y expansión de consultas
Recuperación de la información probabilística
Temas avanzados: Modelos de lenguajes para la recuperación de la información, Clasificación de texto con la regla de Bayes y mediante el modelo de espacio vectorial, SVM y aprendizaje automático para documentos, Clustering y clustering jerárquico, y Descomposición de matrices y LSI (latent semantic indexing)
Búsquedas web, web crawling e indices
Análisis de enlaces
Filtrado colaborativo
Bibliografía
Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. http://nlp.stanford.edu/IR-book/