Curso Académico:
2022/23
3370 - Grado en Ingeniería Matemática en Ciencia de Datos/Mathematical Engineering on Data Science
25424 - Avances en Tecnologías del Habla
Información de la Guía Docente
Curso Académico:
2022/23
Centro académico:
337 - Escuela de Ingeniería
Estudio:
3370 - Grado en Ingeniería Matemática en Ciencia de Datos/Mathematical Engineering on Data Science
Asignatura:
25424 - Avances en Tecnologías del Habla
Créditos:
5.0
Curso:
4 y 3
Idiomas de docencia:
Teoría: | Grupo 1: Inglés |
Prácticas: | Grupo 101: Inglés |
Seminario: | Grupo 101: Inglés |
| Grupo 102: Inglés |
Profesorado:
Alicia Burga Diaz
Periodo de Impartición:
Tercer trimestre
Horario:
Presentación
La asignatura se plantea como una introducción al campo de las tecnologías del habla. Este área ha alcanzado en los últimos años un nivel de desarrollo muy avanzado gracias en buena parte al trabajo conjunto entre ingenieros y lingüistas y a la aplicación de sistemas de redes neuronales.
La asignatura presenta los conceptos básicos para comprender el análisis del habla y su procesamiento digital desde el punto de vista técnico y lingüístico. El estudio de estos conceptos básicos se orienta a las tres aplicaciones principales de las tecnologías del habla: reconocimiento automático del habla, síntesis de voz (o conversores de texto a habla) y sistemas de diálogo.
Los contenidos teóricos se presentarán de tal modo que los estudiantes sean capaces de entender las peculiaridades de las tecnologías del habla y que obtengan un conocimiento práctico del tipo de datos que se necesitan para entrenar estos sistemas. Se trabajará con artículos científicos como fuente de información fundamental a la hora de entender los avances más recientes en las tecnologías del habla basados en redes neuronales. El objetivo de la asignatura gira en torno a dos aspectos prácticos: (1) la creación y gestión de datos lingüísticos (conocidos como corpora) para entrenar sistemas de reconocimiento y generación de habla y (2) el uso de herramientas informáticas y software para procesar datos del habla.
Competencias asociadas
En esta asignatura se trabajan las siguientes competencias:
Conocimientos de informática (G.6) Capacidad de trabajo individual y en equipo (G.13) Aplicación de conocimientos a la práctica (G.17) Capacidad de aprendizaje autónomo y formación continuada (G.20) Capacidad para reflexionar sobre el funcionamiento de la lengua (E.9) Capacidad para diseñar y gestionar proyectos lingüísticos (E.15)
Resultados del aprendizaje
G.6.
Entender las señales de la voz tanto a nivel físico (concepto de frecuencia, amplitud, etc.) como lingüístico (fonética, prosodia, etc.). Funcionamiento básico de los sistemas más usados en el ámbito de las tecnologías del habla: reconocimiento automático de habla, sintetizadores de texto a habla y sistemas de diálogo.
Explorar diferentes sistemas de generación y de reconocimiento automático del habla.
G.13.
Realizar trabajos individuales y en grupo relacionados con temas de la asignatura.
G.17.
Utilizar herramientas informáticas para la digitalización, codificación y procesamiento del habla.
G.20.
Aprender de manera autónoma a aplicar conceptos teóricos en la práctica y realizar búsquedas de información.
E.9.
Extraer conclusiones lingüísticas a partir del procesamiento de datos cuantitativos y cualitativos.
E.15.
Diseñar y gestionar proyectos lingüísticos relacionados con los contenidos de la asignatura.
Objetivos de Desarrollo Sostenible
ODS3#ODS12
Prerrequisitos
Conocimientos básicos de programación.
Nivel de inglés superior a B2.
Contenidos
1. Introducción
Qué es el procesamiento del habla. El habla humana: lenguaje oral, fisionomía de la voz, acústica, lenguaje en contexto. Cuestiones éticas y protección de datos sensibles.
2. Procesamiento del habla
2.1. Conceptos lingüísticos
Definición física, fisiológica, fonética i pragmática. La identificación de las unidades del habla: vocales y consonantes, punto y modo de articulación, sonoridad. Prosodia: frecuencia fundamental (F0), duración, intensidad, prominencia y fraseología. Convenciones de transcripción fonética y prosódica. El discurso oral.
2.2. Conceptos técnicos
Cómo funcionan los sistemas de aprendizaje automático: parámetros acústicos, representación vectorial, cálculo de probabilidades. Sistemas de redes neuronales. Herramientas de procesamiento para el análisis lingüístico del habla.
3. Reconocimiento del habla
3.1. Conceptos técnicos
Módulos de un reconocedor de habla. Desarrollo de modelos acústicos y lingüísticos. Aplicaciones de un reconocedor automático de habla. Sistemas comerciales y de código abierto.
3.2. Conceptos lingüísticos
Diseño y creación de corpora para entrenar estos modelos. La incorporación de un nuevo idioma en un sistema de reconocimiento: generación de modelos acústicos, creación de diccionarios, generación de modelos de lenguaje.
4. Conversión texto-habla
4.1. Conceptos técnicos
Aplicaciones de la conversión texto-habla. Estructura de un sintetizador de voz: procesamiento lingüístico y de la señal. Principales sistemas comerciales y de código abierto. El procesamiento lingüístico en la conversión texto-habla: preprocesado, normalización, análisis lingüístico, segmentación prosódica, transcripción fonética, predicción de acentos. Síntesis concatenativa, paramétrica y end-to-end. El rol de la prosodia y la calidad de voz.
4.2. Conceptos lingüísticos
Incorporación de un idioma nuevo a un conversor texto-habla. El desarrollo de un módulo de procesamiento lingüístico. Manipulación de la prosodia. La expresividad del habla. Evaluación y percepción.
5. Sistemas de diálogo
5.1. Conceptos técnicos
Estructura de un sistema de diálogo: reconocedor de habla; análisis del contenido; gestión del diálogo; generación del mensaje de respuesta; conversión texto-habla. Principales aplicaciones.
5.2. Conceptos lingüísticos
El proceso de creación de un sistema de diálogo: funcionalidad y dominio.
Metodología docente
La asignatura se plantea en torno a dos ejes:
-
las clases teóricas (24 horas), en las que se introducirán los diferentes conceptos lingüísticos y técnicos;
-
las prácticas (12 horas) y los seminarios (10 horas), en los que el alumno pondrá en práctica los conceptos teóricos de forma individual o en grupo con apoyo del profesor. Se tendrán que realizar entregas de las actividades realizadas en los seminarios para poder presentarse al examen final.
Se habilitarán foros en el aula global donde los estudiantes podrán realizar consultas, así como compartir y discutir información complementaria relacionada con el temario (artículos, videos, aplicaciones, etc.). Se requerirá la realización de un trabajo en grupo sobre uno de los temas tratados en clase, que se evaluará en forma de presentación oral.
Evaluación
La calificación final está dividida de la siguiente manera:
Actividades prácticas y seminarios (30%)
Presentación oral (20%)
Examen final (50%)
Para poder presentarse al examen final, el alumno tendrá que haber entregado todos los informes de seminario así como realizar la presentación oral del trabajo en grupos. Para aprobar la asignatura es necesario obtener un mínimo de 5 sobre 10, calculando la media de todas las áreas evaluables. En caso de obtener una calificación final inferior a 5, el estudiante tendrá que realizar el examen de recuperación. Este examen de recuperación incluirá conceptos explicados en las sesiones de teoría así como aspectos tratados en las prácticas y seminarios. La nota final de los estudiantes que tengan que presentarse a la recuperación será la obtenida en el examen de recuperación.
Bibliografía y recursos de información
Básica
Dan Jurafsky and James H. Martin. Speech and Language Processing (3rd ed. draft) [link]
Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep Learning. MIT Press. [link]
Complementaria
Pratap, et al. (2019) "Wav2Letter++: A Fast Open Source Speech Recognition System" In Proceedings of 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). [Link]
Shen, et al. (2018) "Natural TTS Synthesis by Conditioning Wavenet on MEL Spectrogram Predictions", in Proceedings of 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). [Link]
Pratap, et al. (2020) "Massively Multilingual ASR: 50 Languages, 1 Model, 1 Billion Parameters", In Proceedings of Interspeech 2020, Shanghai, China. [Link]
Hsu et al. (2019) "Hierarchical Generative Modelling for Controllable Speech Synthesis", In Proceedings of ICLR 2019. [Link]
Béchet, F. - Raymond, C. (2019) "Benchmarking benchmarks: introducing new automatic indicators for benchmarking Spoken Language Understanding corpora," Proceedings of Interspeech, Graz, Austria. [Link]
Moore, R.G.- Skidmore, L. (2019) "On the Use/Misuse of the Term ‘Phoneme’", in Proceedings of Interspeech, Graz, Austria. [Link]
Watts, et al. (2016) "From HMMS to DNNS: Where do the improvements come from?," in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Shanghai, pp. 5505-5509. [Link]