Diagrama semanal

  • Edición 2024: El curso se dictará en el segundo semestre de 2024.

    Procesamiento digital de señales de audio

     

    Descripción y objetivos

    El curso busca profundizar la formación de los estudiantes en procesamiento de señales. Al finalizar la unidad curricular el estudiante comprenderá los fundamentos del procesamiento digital de señales de audio, tales como el análisis de tiempo corto, el compromiso tiempo-frecuencia, el modelo fuente-filtro, o la deconvolución. También tendrá experiencia en técnicas clásicas del área, como la Codificación por Predicción Lineal (LPC) ó el análisis Cepstral. Será capaz de programar algoritmos para implementar las técnicas estudiadas y resolver problemas recurrentes, como la detección de frecuencia fundamental y la estimación de envolvente espectral. Esta formación le permitirá abordar proyectos en los que intervengan señales de audio (como la voz hablada, la música o los sonidos del entorno), con aplicaciones en telecomunicaciones, producción audiovisual, o bioacústica, entre otras.

     Metodología

    El dictado del curso está organizado en dos clases semanales de dos horas, alternando clases teóricas y clases prácticas. En las clases teóricas se presentarán los temas de forma expositiva, conectando los contenidos con ejemplos prácticos y problemas reales, así como habilitando espacios activos para la reflexión e intercambio. En las clases prácticas los estudiantes desarrollarán habilidades prácticas relativas a la programación y aplicarán técnicas de procesamiento de audio sobre señales reales. Durante las tres últimas semanas de clase los estudiantes trabajarán en grupos de a dos, resolviendo un problema de aplicación, que integre los conocimientos adquiridos durante el curso.

    Evaluación

    El proceso de evaluación incluye la realización de trabajo individual de resolución de ejercicios, distribuidos en 4 entregables a lo largo del curso. Además se deberá realizar un proyecto final de curso en grupos de dos estudiantes. Los ejercicios entregables corresponden al 50% del puntaje total de la unidad curricular, mientras que el proyecto final corresponde al restante 50%. Para aprobar la unidad curricular el estudiante deberá cumplir con la entrega de todos los entregables y deberá alcanzar un 60% del puntaje total del curso.

    Temario

    1. Introducción al procesamiento de audio: objetivos, aplicaciones, conceptos básicos de señales de audio (e.g. digitalización, densidad espectral de potencia, autocorrelación, dithering, etc).
    2. Señales de voz y audio: aparato fonador, modelo de producción de voz, modelo fuente filtros, modelos tonal+transitorio+ruido.
    3. Percepción auditiva: fisiología del sistema auditivo, sonoridad, bandas críticas, enmascaramiento, percepción de altura, modelos del sistema auditivo.
    4. Filtros digitales con aplicaciones en audio: resonadores, notch, peine, pasa-todo, interpoladores y aplicaciones en efectos de audio y síntesis de sondio.
    5. Síntesis de sonido: síntesis aditiva, AM, anillo, FM, modelado físico, aplicaciones.
    6. Análisis de tiempo corto de señales de audio: enventanado, STFT, espectrograma, variantes mutiresolución, transformada Q constante (CQT).
    7. Análisis Homomórfico: cepstrum y cepstrum complejo, estimación de envolvente, detección de pitch, deconvolución, MFCC, codificación de voz.
    8. Análisis por Predicción Lineal: modelo todo polo, cálculo de LPC, orden, inestabilidad, aplicaciones: estimación de formantes.
    9. Procesamiento tiempo-frecuencia: Overlap-add, convolución rápida, phase vocoder, aplicaciones y efectos.
    10. Análisis por modelado espectral: modelado espectral, componentes tonal transitorio y ruido, estimación de altura, seguimiento de parciales, aplicaciones.
    11. Codificación de voz y audio: cuantización, codificación con y sin pérdidas, modelos perceptivos, codificación de voz, codificación de audio.
    12. Extracción de información musical: separación en fuentes, reconocimiento de instrumentos, sincronismo temporal, detección de acordes, seguimiento de pulso, análisis de estructura, transcripción automática.

    Horarios y salones

    Martes y jueves de 10:00 a 12:00 hs.

    Salón: Laboratorio de Software

    Las clases en 2024 se dictarán en forma presencial

    Fecha de inicio: Martes 6 de Agosto de 2024

    Docentes

    Pablo Cancela, Emilio Martínez

    Recursos

    Notebooks:  https://github.com/emidan19/audio-dsp/tree/main/notebooks

  • 5 de agosto - 11 de agosto

    Clases:

    • Clase 1: Teórico - Introducción al procesamiento de audio
      • Contenidos: Presentación del curso, digitalización, cuantización, dithering, noise shaping, etc.
      • Bibliografía de referencia:
        • Ken C. Pohlmann, (2000). Principles of Digital Audio. Chapter 2 - Fundamentals of digital audio
        • Rabiner, L.R. & Schafer, R.W. (2011). Theory and Applications of Digital Speech Processing. Chapter 1 - Introduction to digital speech processing
    • Clase 2: Teórico - Procesamiento de señales de voz
      • Contenidos: Mecanismo de producción de voz y modelo de procesamiento de señales de voz
      • Bibliografía de referencia: Rabiner, L.R. & Schafer, R.W. (2011). Theory and Applications of Digital Speech Processing.
        • Chapter 3 - Fundamentals of human speech production
        • Chapter 5 - Sec. 5.3 Digital models for sampled speech signals
  • 12 de agosto - 18 de agosto

    Clases:

    • Clase 3: Teórico - Procesamiento en el dominio del tiempo
      • Contenidos: Medidas de tiempo corto, energía, tasa de cruces por cero, autocorrelación, estimación de frecuencia fundamental.
      • Bibliografía de referencia: Rabiner, L.R. & Schafer, R.W. (2011). Theory and Applications of Digital Speech Processing. Chapter 6 - Time-domain methods for speech processing
    • Clase 4: Teórico - Percepción auditiva
      • Contenidos: Fisiología del sistema auditivo, psicoacústica, modelos del sistema auditivo.
      • Bibliografía de referencia: Rabiner, L.R. & Schafer, R.W. (2011). Theory and Applications of Digital Speech Processing. Chapter 4 - Hearing, auditory models, and speech perception
  • 19 de agosto - 25 de agosto

    Clases:

    • Clase 5: Práctico - Práctico 1
      • Contenidos: Muestreo, cuantización y dithering en señales de audio. Procesamiento de audio en el dominio del tiempo.
    • Clase 6: Teórico - Introducción a filtros digitales
      • Contenidos: Conceptos básicos, caracterización de filtros, filtro de media móvil, filtros de Chebyshev
      • Bibliografía de referencia: Thomas Steiglitz, K. (1996). Digital Signal Processing Primer: With Applications to Digital Audio and Computer Music. Prentice Hall
  • 26 de agosto - 1 de setiembre

    Clases:

    • Clase 7: Teórico - Filtros digitales en audio
      • Contenidos: Diseño de filtros, filtros peine, filtros pasa-todo
      • Bibliografía de referencia: Thomas Steiglitz, K. (1996). Digital Signal Processing Primer: With Applications to Digital Audio and Computer Music. Prentice Hall
    • Clase 8: Teórico - Aplicaciones en síntesis de sonido y efectos de audio
      • Contenidos: Reverberadores y síntesis por modelado físico.
      • Bibliografía de referencia: Thomas Steiglitz, K. (1996). Digital Signal Processing Primer: With Applications to Digital Audio and Computer Music. Prentice Hall
  • 2 de setiembre - 8 de setiembre

    Clases:

    • Clase 9: Práctico - Práctico 2
      • Contenidos: Filtros digitales en audio, aplicaciones en síntesis de sonido y efectos de audio.
    • Clase 10: Teórico - Análisis de Fourier de tiempo corto
      • Contenidos: Transformada de Fourier de Tiempo Corto (STFT), espectrograma, detección de pitch.
      • Bibliografía de referencia: Rabiner, L. R. and Schafer, R. W. (2011). Theory and Applications of Digital Speech Processing. Chapter 7 - Frequency-Domain Representations
  • 16 de setiembre - 22 de setiembre

    Clases:

    • Clase 11: Teórico - Representaciones tiempo-frecuencia multi-resolución
      • Contenidos: Variantes de la STFT, representaciones multi-resolución, transformada Q-constante (CQT).
      • Bibliografía de referencia: Rabiner, L. R. and Schafer, R. W. (2011). Theory and Applications of Digital Speech Processing. Chapter 7 - Frequency-Domain Representations
    • Clase 12: Teórico - Análisis y síntesis con la STFT
      • Contenidos: Síntesis con STFT, reconstrucción perfecta, método de solapamiento y suma.
      • Bibliografía de referencia: Rabiner, L. R. and Schafer, R. W. (2011). Theory and Applications of Digital Speech Processing. Chapter 7 - Frequency-Domain Representations

     

  • 23 de setiembre - 5 de octubre

    Semana de parciales

    Clases de consulta: 

    • habituales lunes 18hs zoom
    • jueves 26/09  10am, IEEE

  • 4 de octubre - 6 de octubre

    Clases:

    • Clase 13: 
      • Teórico - Procesamiento tiempo-frecuencia
        • Contenidos: Convolución rápida, phase vocoder, aplicaciones.
        • Bibliografía de referencia: Rabiner, L. R. and Schafer, R. W. (2011). Theory and Applications of Digital Speech Processing. Chapter 7 - Frequency-Domain Representation
      • Práctico - Práctico 3
        • Contenidos: Análisis de Fourier de tiempo corto, procesamiento tiempo-frecuencia.

  • 7 de octubre - 13 de octubre

    Clases:

    • Clase 14: 
      • Teórico - Procesamiento tiempo-frecuencia
        • Contenidos: phase vocoder, aplicaciones.
        • Bibliografía de referencia: Rabiner, L. R. and Schafer, R. W. (2011). Theory and Applications of Digital Speech Processing. Chapter 7 - Frequency-Domain Representations
      • Práctico - Práctico 3 (phase vocoder)
    • Clase 15: Teórico - Modelado espectral
      • Contenidos: Modelado espectral, seguimiento de altura y parciales, aplicaciones.
      • Bibliografía de referencia: Rabiner, L. R. and Schafer, R. W. (2011). Theory and Applications of Digital Speech Processing. Chapter 7 - Frequency-Domain Representations
  • 14 de octubre - 20 de octubre

    Clases:

    • Clase 17: Teórico - Análisis Homomórfico I
      • Contenidos: Análisis Homomórfico, Cepstrum real y complejo, aplicaciones.
      • Bibliografía de referencia:  Rabiner, L. R. and Schafer, R. W. (2011). Theory and Applications of Digital Speech Processing. Chapter 8 - The Cepstrum and Homomorphic Speech Processing
    • Clase 18: Teórico - Análisis Homomórfico II
      • Contenidos: Análisis Homomórfico, Cepstrum real y complejo, aplicaciones.
      • Bibliografía de referencia:  Rabiner, L. R. and Schafer, R. W. (2011). Theory and Applications of Digital Speech Processing. Chapter 8 - The Cepstrum and Homomorphic Speech Processing
  • 20 de octubre - 26 de octubre

    Clases:

    • Clase 19: Teórico - Análisis Homomórfico III
      • Contenidos: Análisis Homomórfico, Cepstrum real y complejo, aplicaciones.
      • Bibliografía de referencia:  Rabiner, L. R. and Schafer, R. W. (2011). Theory and Applications of Digital Speech Processing. Chapter 8 - The Cepstrum and Homomorphic Speech Processing
    • Clase 20: Teórico - Análisis Homomórfico III
      • Contenidos: aplicaciones.
        • Consultas
    • Icono URL
      Video clase 19 (martes 24 de mayo 2022) URL
      No disponible hasta que: Eres un Estudiante
    • Icono URL
      Video clase 20 (jueves 26 de mayo 2022) URL
      No disponible hasta que: Eres un Estudiante
  • 27 de octubre - 2 de noviembre

     Clases:

    • Clase 21:Teórico - Análisis por predicción lineal I
      • Contenidos: Interpretación en el dominio de la frecuencia, el error de predicción, análisis y codificación de señales de voz, aplicaciones.
      • Bibliografía de referencia:  Rabiner, L. R. and Schafer, R. W. (2011). Theory and Applications of Digital Speech Processing. Chapter 9 - Linear Predictive Analysis of Speech Signals

    • Clase: Práctico - Práctico 4
      • Contenidos: Análisis Homomórfico, análisis por Predicción Lineal.

  • 4 de noviembre - 10 de noviembre

    Clases:

    • Clase 22: Teórico - Análisis por predicción lineal II
      • Contenidos: Interpretación en el dominio de la frecuencia, el error de predicción, análisis y codificación de señales de voz, aplicaciones.
      • Bibliografía de referencia:  Rabiner, L. R. and Schafer, R. W. (2011). Theory and Applications of Digital Speech Processing. Chapter 9 - Linear Predictive Analysis of Speech Signals

    • Clase 23: Teórico - Codificación de voz y audio
      • Contenidos: Codificación con y sin pérdidas, cuantización, codificación por entropía, modelo perceptual, codificación por análisis y síntesis
      • Bibliografía de referencia:  Rabiner, L. R. and Schafer, R. W. (2011). Theory and Applications of Digital Speech Processing. Chapter 11 - Digital Coding of Speech Signals
  • 11 de noviembre - 17 de noviembre

    Clases:

    • Clase 24: Teórico - Sincronismo de audio
      • Contenidos: Alineamiento temporal, Dynamic Time Warping (DTW), restricciones, multi-escala, ejemplos y aplicaciones
      • Bibliografía de referencia:  Müller M. (2015). Fundamentals of Music Processing. Chapter 3 - Music Synchronization

    • Clase 25: Presentación proyecto del curso.
      • Presentación del contenido del proyecto a ser abordado.
  • Proyecto 2024