Consulta de Guies Docents

Curs Acadèmic: 2022/23

3370 - Grau en Enginyeria Matemàtica en Ciència de Dades/Mathematical Engineering on Data Science

25424 - Avenços en Tecnologies de la Parla

Informació de la Guia Docent

Curs acadèmic:

2022/23

Centre acadèmic:

337 - Escola d'Enginyeria

Estudi:

3370 - Grau en Enginyeria Matemàtica en Ciència de Dades/Mathematical Engineering on Data Science

Assignatura:

25424 - Avenços en Tecnologies de la Parla

Crèdits:

5.0

Curs:

3 i 4

Idiomes de docència:

Teoria:	Grup 1: Anglès
Pràctiques:	Grup 101: Anglès
Seminari:	Grup 101: Anglès
	Grup 102: Anglès

Professorat:

Alicia Burga Diaz

Periode d'Impartició:

Tercer trimestre

Horari:

Anar a la consulta d'Horaris

Presentació

L'assignatura es planteja com una introducció al camp de les tecnologies de la parla. En aquest camp hi ha hagut avenços importants gràcies al treball conjunt entre els enginyers i lingüistes i l'aplicació de algoritmes basats en xarxes neuronals.

Aquesta assignatura presenta els conceptes bàsics per a la comprensió dels senyals de la veu i el seu processament digital. L'estudi teòric d'aquest conceptes s'orienta a les tres aplicacions principals en tecnologies de la parla: el reconeixement automàtic de la parla, la síntesi de text a parla i els sistemes de diàleg.

Els continguts teòrics que es presentaran estan orientats a que els estudiants comprenguin les peculiaritats de les tecnologies de la parla i tinguin un coneixement pràctic del tipus de dades que cal fer servir per entrenar aquests sistemas. Treballarem amb articles científics com a font d'informació fonamental per entendre els avenços més recents en les tecnologies de la parla basats en xarxes neuronals. Es posarà un èmfasi especial en dos aspectes pràctics: (1) la creació i gestió de recursos lingüístics (també anomenats corpora) per entrenar sistemas de reconeixement i generació de parla, i (2) l'ús d'eines informàtiques i software per processar dades de la parla a gran escala.

Competències associades

Coneixements d'informàtica (G.6) Capacitat de treball individual i en equip (G.13) Aplicació de coneixements a la pràctica (G.17) Capacitat d'aprenentatge autònom i de formació continuada (G.20) Capacitat per poder reflexionar sobre el funcionament de la llengua (E.9) Capacitat per dissenyar i gestionar projectes lingüístics (E.15)

Resultats de l'aprenentatge

G.6. G.6.

Entendre els senyals de la veu tant a nivell físic (concepte de freqüència, amplitud...) com lingüístic (fonètica, prosòdia...). Funcionament bàsic dels sistemes més emprats en l'àmbit de les tecnologies de la parla: reconeixement automàtic de la parla, sintetitzadors de veu i sistemes de diàleg.

Explorar diferents sistemes de generació i de reconeixement automàtic de la parla.

G.1G.13.

Portar a terme un treball individual o en grup relacionat amb temes de l'assignatura.

G.17G.17.

Fer servir eines informàtiques per a la digitalització, codificació i processament de la parla.

G.20G.20.

Aprendre per un mateix amb la realització de les pràctiques i la recerca d'informació.

E.9. E.9.

Extreure conclusions lingüístiques a partir de les operacions de processament de textos i parla.

E.15E.15.

Dissenyar i gestionar projectes lingüístics relacionats amb els continguts de l'assignatura.

Objectius de Desenvolupament Sostenible

ODS3#ODS12

Prerequisits

Coneixements bàsics de programació.

Nivell d'anglés superior a B2.

Continguts

1. Introducció

Què és el processament de la parla. La parla humana: llenguatge oral, fisionomía de la veu, acústica de la parla, llenguatge en contexte. Qüestions ètiques i protecció de dades personals.

2. Processament de la parla

2.1. Conceptes lingüístics

Definició física, fisiològica, fonètica i pragmàtica. La identificació de les unitats de la parla: vocals i consonants, punt i mode d'articulació, sonoritat. Prosòdia: freqüència fonamental (F0), durada, intensitat, prominència i fraseologia. Convencions de transcripció fonètica i prosòdica. El discurs oral.

2.2. Conceptes tècnics

Cóm funcionen els sistemes d'aprenentatge automàtic: paràmetres acústics, representació vectorial, càlcul de probabilitats. Sistemas basats en xarxes neuronals. Eines de processament per l'anàlisi lingüístic.

3. Reconeixement de la parla

3.1. Conceptes tècnics

Mòduls de un reconeixedor de parla. Desenvolupament de models acústics i lingüístics. Aplicacions de un reconeixedor automàtic de parla. Sistemes comercials i de codi obert.

3.2. Conceptes lingüístics

Disseny i creació de corpora per entrenar models. La incorporació d'un nou idioma a un sistema de reconeixement: recollida de corpus, generació de models acústics, creació de diccionaris, generació dels models de llenguatge.

4. Conversió text-parla

4.1. Conceptes tècnics

Aplicacions de la conversió text-parla. Estructura d'un conversor: processament lingüístic i de la senyal. Principals sistemes comercials i de codi obert. El processament lingüístic per a la conversió text-parla: preprocessament, normalització, l'anàlisi lingüístic, segmentació prosòdica, transcripció fonètica, predicció de l'accent. Síntesi per concatenació d'unitats, paramètrica i end-to-end. El rol de la prosòdia i la qualitat de veu.

4.2. Conceptes lingüístics

Incorporació d'un nou idioma a un conversor text-parla. El desenvolupament d'un mòdul de processament lingüístic. Manipulació de la prosòdia. L'expressivitat de la parla. Avaluació i percepció.

5. Sistemes de diàleg

5.1. Conceptes tècnics

Estructura d'un sistema de diàleg: reconeixement de parla; comprensió de parla, gestió del diàleg, generació del missatge de resposta, conversió text-parla. Principals aplicacions.

5.2. Conceptes lingüístics

El procés de creació d'un sistema de diàleg: funcionalitats i domini.

Metodologia docent

L'assignatura s'articula al voltant de dos eixos:

les classes de teoria (24 hores), a les quals s'introduiran els diferents conceptes teòrics;
les sessions de pràctiques (12 hores) i seminaris (10 hores), al llarg de les quals els alumnes hauran de realitzar, de forma individual o en grup i amb suport del profesor, una sèrie d'activitats proposades per reforçar els conceptes teòrics treballats durant les sessions teòriques. Es demanaran informes sobre les activitats proposades, que hauran de ser lliurats per tal de poder presentar-se a l'examen final.

S'habilitaran fòrums perquè els estudiants preguntin i puguin resoldre dubtes que sorgeixin durant el trimestre i, a més, comparteixin informació complementària relacionada amb el temari donat (articles, webs, aplicacions...). Es farà un treball en grup sobre un dels temes tractats a classe, que s'avaluarà com una presentació oral.

Avaluació

La qualificació final està dividida de la següent manera:

Activitats pràctiques i seminaris (30%)

Presentació oral (20%)

Examen final (50%)

Per tal de poder presentar-se a l'examen final, l'alumne haurà de lliurar tots els informes així com fer la presentació oral del treball en grups. Caldrà arribar a la nota mínima de 5 sobre 10, calculant la mitjana de totes les àrees avaluables, per aprovar l'assignatura. En cas de que l'alumne obtingui una qualificació total final menor de 5 l'alumne s'haurà de presentar a l'examen de recuperació. L'examen de recuperació inclourà conceptes explicats a teoria i activitats pràctiques tractades durant els seminaris i pràctiques. La nota final dels alumnes que hagin de fer la recuperació serà la del examen de recuperació.

Bibliografia i recursos d'informació

Bàsica

Dan Jurafsky and James H. Martin. Speech and Language Processing (3rd ed. draft) [link]

Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep Learning. MIT Press. [link]

Complementària

Pratap, et al. (2019) "Wav2Letter++: A Fast Open Source Speech Recognition System" In Proceedings of 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). [Link]

Shen, et al. (2018) "Natural TTS Synthesis by Conditioning Wavenet on MEL Spectrogram Predictions", in Proceedings of 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). [Link]

Pratap, et al. (2020) "Massively Multilingual ASR: 50 Languages, 1 Model, 1 Billion Parameters", In Proceedings of Interspeech 2020, Shanghai, China. [Link]

Hsu et al. (2019) "Hierarchical Generative Modelling for Controllable Speech Synthesis", In Proceedings of ICLR 2019. [Link]

Béchet, F. - Raymond, C. (2019) "Benchmarking benchmarks: introducing new automatic indicators for benchmarking Spoken Language Understanding corpora," Proceedings of Interspeech, Graz, Austria. [Link]

Moore, R.G.- Skidmore, L. (2019) "On the Use/Misuse of the Term ‘Phoneme’", in Proceedings of Interspeech, Graz, Austria. [Link]

Watts, et al. (2016) "From HMMS to DNNS: Where do the improvements come from?," in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Shanghai, pp. 5505-5509. [Link]

Academic Year/course: 2022/23

3370 - Bachelor's Degree Mathematical Engineering on Data Science

25424 - Advances in Speech Technologies

Teaching Guide Information

Academic Course:

2022/23

Academic Center:

337 - Engineering School

Study:

3370 - Bachelor's Degree Mathematical Engineering on Data Science

Subject:

25424 - Advances in Speech Technologies

Credits:

5.0

Course:

4 and 3

Teaching languages:

Theory:	Group 1: English
Practice:	Group 101: English
Seminar:	Group 101: English
	Group 102: English

Teachers:

Alicia Burga Diaz

Teaching Period:

Third Quarter

Schedule:

Go to calendars and timetables

Presentation

This subject is presented as an introduction to the field of speech technologies. This field has achieved a great level of advancement thanks to the collaboration between engineers and linguists, as well as to the implementation of neural networks algorithms.

In this subject, we will learn the basic concepts to understand how speech is analyzed and digitally processed from a technical and linguistic point of view. The study of these basic concepts is applied to the three main applications in speech technologies, namely, automatic speech recognition (ASR), speech synthesis, frequently called text-to-speech (TTS), and in dialogue systems.

Theoretical contents are introduced so that students understand the peculiarities of speech technologies and get practical knowledge on what data is needed to run these systems. Scientific articles will be used as the main source of information to understand the latest advances in speech technologies based on neural networks. The objective of the subject unfolds around two core aspects: (i) to create and manage linguistic data in general and speech data specifically (known as corpora) to train speech technologies, and (ii) to use available software and tools to process speech data at a great scale.

Associated skills

The following competences will be developed in this subject:

Computer skills (G.6) Individual and group work (G.13) Practical application of theoretical concepts (G.17) Autonomous and long-term learning skills (G.20) Reflecting on language in use (E.9) Development and management of linguistic projects (E.15)

Learning outcomes

G.6.

To understand speech signals from a physical and linguistic point of view (frequency, amplitude, phonetics, prosody). Basic understanding of how speech technologies work: automatic speech recognition, speech synthesis and dialogue systems. To explore different systems of speech synthesis and recognition.

G.13.

To carry out a project in groups on one of the topics of the subject.

G.17.

To use software for processing, annotating and digitalizing speech.

G.20.

To learn by means of practical application of theoretical concepts and search of further information.

E.9.

To reflect on spoken language by means of quantitative and qualitative techniques related to speech processing.

E.15.

To carry out and manage linguistic projects on topics related to the subject.

Sustainable Development Goals

ODS3#ODS12

Prerequisites

Basic programming skills.

English above a B2 level.

1. Introduction

Speech processing. Speech: spoken language, physiology of the voice, acoustics, language in context. Ethical issues and data protection.

2. Speech Processing

2.1. Linguistic Concepts

Definitions from the point of view of physics, physiology, phonetics and pragmatics. Units of speech: vowels, consonants, articulation point and form. Prosody: fundamental frequency, duration, pauses. Conventions to transcribe phonetics and prosody. The spoken discourse.

2.2. Technical Concepts

Basic concepts of machine learning applied to speech processing: acoustic parameters, vectors, computation of probabilities. Neural networks. Tools for speech analysis.

3. Automatic Speech Recognition (ASR)

3.1. Technical Concepts

Applications of ASR. Commercial and open source systems. Modules of an ASR system.

3.2. Linguistic Concepts

Design and creation of corpora. Training an ASR system on a new language: acoustic models, dictionaries, language models.

4. Text-To-Speech (TTS)

4.1. Technical Concepts

Applications of TTS systems. Modules in a TTS system: language module and signal processing. Commercial and open source systems. Linguistic processing in TTS: pre-processing, normalization, linguistic analysis, segmentation, prosody prediction, phonetic transcription. Concatenative, parametric and end-to-end speech synthesis.

4.2. Linguistic Concepts

Training a TTS in a new language. The linguistic processing module. Prosody manipulation. Speech expressiveness. Evaluation and perception.

5. Dialogue Systems

5.1. Technical Concepts

Modules of a dialogue system: ASR, language understanding, dialogue management, language generation, TTS. Applications of dialogue systems.

5.2. Linguistic Concepts

The development of a dialogue system: functionality and domain.

Teaching Methods

This subject hinges around two core type os sessions:

Theoretical classes (24 hours), where the main linguistic and technical concepts will be introduced;
Practice (12 hours) and seminars (10 hours), where students will apply individually or in groups the concepts they have learnt. Reports on the activities of the seminars will have to be submitted in order to be able to sit for the final exam.

Forums will be available in the "Aula Global" to clarify questions, share information and discuss interesting news, articles and web applications concerning speech technologies. A project will be required for students to work in groups on one of the topics related to the subject. This activity will be assessed as an oral presentation.

Evaluation

The final mark will be split as follows:

Practice and seminar tasks (30%)

Oral presentation (20%)

Final exam (50%)

In order to be able to sit for the final exam, students will have to submit all tasks from practice and seminars lessons as well as do the oral presentation of their projects. The final mark will be computed as the average of all assessed areas. In order to pass the subject, students will need an overall mark of 5 over 10 or higher. In case students fail to get the minimum of 5, they will have to attend the second-chance examination. This examination will include questions on the theory, practice and seminar sessions. The final mark of those student who sit for the second-chance examination will be the mark obtained in such exam.

Bibliography and information resources

Basic

Dan Jurafsky and James H. Martin. Speech and Language Processing (3rd ed. draft) [link]

Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep Learning. MIT Press. [link]

Optional

Pratap, et al. (2019) "Wav2Letter++: A Fast Open Source Speech Recognition System" In Proceedings of 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). [Link]

Pratap, et al. (2020) "Massively Multilingual ASR: 50 Languages, 1 Model, 1 Billion Parameters", In Proceedings of Interspeech 2020, Shanghai, China. [Link]

Hsu et al. (2019) "Hierarchical Generative Modelling for Controllable Speech Synthesis", In Proceedings of ICLR 2019. [Link]

Moore, R.G.- Skidmore, L. (2019) "On the Use/Misuse of the Term ‘Phoneme’", in Proceedings of Interspeech, Graz, Austria. [Link]

Watts, et al. (2016) "From HMMS to DNNS: Where do the improvements come from?," in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Shanghai, pp. 5505-5509. [Link]

Curso Académico: 2022/23

3370 - Grado en Ingeniería Matemática en Ciencia de Datos/Mathematical Engineering on Data Science

25424 - Avances en Tecnologías del Habla

Información de la Guía Docente

Curso Académico:

2022/23

Centro académico:

337 - Escuela de Ingeniería

Estudio:

3370 - Grado en Ingeniería Matemática en Ciencia de Datos/Mathematical Engineering on Data Science

Asignatura:

25424 - Avances en Tecnologías del Habla

Créditos:

5.0

Curso:

4 y 3

Idiomas de docencia:

Teoría:	Grupo 1: Inglés
Prácticas:	Grupo 101: Inglés
Seminario:	Grupo 101: Inglés
	Grupo 102: Inglés

Profesorado:

Alicia Burga Diaz

Periodo de Impartición:

Tercer trimestre

Horario:

Ir a la consulta de Horarios

Presentación

La asignatura se plantea como una introducción al campo de las tecnologías del habla. Este área ha alcanzado en los últimos años un nivel de desarrollo muy avanzado gracias en buena parte al trabajo conjunto entre ingenieros y lingüistas y a la aplicación de sistemas de redes neuronales.

La asignatura presenta los conceptos básicos para comprender el análisis del habla y su procesamiento digital desde el punto de vista técnico y lingüístico. El estudio de estos conceptos básicos se orienta a las tres aplicaciones principales de las tecnologías del habla: reconocimiento automático del habla, síntesis de voz (o conversores de texto a habla) y sistemas de diálogo.

Los contenidos teóricos se presentarán de tal modo que los estudiantes sean capaces de entender las peculiaridades de las tecnologías del habla y que obtengan un conocimiento práctico del tipo de datos que se necesitan para entrenar estos sistemas. Se trabajará con artículos científicos como fuente de información fundamental a la hora de entender los avances más recientes en las tecnologías del habla basados en redes neuronales. El objetivo de la asignatura gira en torno a dos aspectos prácticos: (1) la creación y gestión de datos lingüísticos (conocidos como corpora) para entrenar sistemas de reconocimiento y generación de habla y (2) el uso de herramientas informáticas y software para procesar datos del habla.

Competencias asociadas

En esta asignatura se trabajan las siguientes competencias:

Conocimientos de informática (G.6) Capacidad de trabajo individual y en equipo (G.13) Aplicación de conocimientos a la práctica (G.17) Capacidad de aprendizaje autónomo y formación continuada (G.20) Capacidad para reflexionar sobre el funcionamiento de la lengua (E.9) Capacidad para diseñar y gestionar proyectos lingüísticos (E.15)

Resultados del aprendizaje

G.6.

Entender las señales de la voz tanto a nivel físico (concepto de frecuencia, amplitud, etc.) como lingüístico (fonética, prosodia, etc.). Funcionamiento básico de los sistemas más usados en el ámbito de las tecnologías del habla: reconocimiento automático de habla, sintetizadores de texto a habla y sistemas de diálogo.

Explorar diferentes sistemas de generación y de reconocimiento automático del habla.

G.13.

Realizar trabajos individuales y en grupo relacionados con temas de la asignatura.

G.17.

Utilizar herramientas informáticas para la digitalización, codificación y procesamiento del habla.

G.20.

Aprender de manera autónoma a aplicar conceptos teóricos en la práctica y realizar búsquedas de información.

E.9.

Extraer conclusiones lingüísticas a partir del procesamiento de datos cuantitativos y cualitativos.

E.15.

Diseñar y gestionar proyectos lingüísticos relacionados con los contenidos de la asignatura.

Objetivos de Desarrollo Sostenible

ODS3#ODS12

Prerrequisitos

Conocimientos básicos de programación.

Nivel de inglés superior a B2.

Contenidos

1. Introducción

Qué es el procesamiento del habla. El habla humana: lenguaje oral, fisionomía de la voz, acústica, lenguaje en contexto. Cuestiones éticas y protección de datos sensibles.

2. Procesamiento del habla

2.1. Conceptos lingüísticos

Definición física, fisiológica, fonética i pragmática. La identificación de las unidades del habla: vocales y consonantes, punto y modo de articulación, sonoridad. Prosodia: frecuencia fundamental (F0), duración, intensidad, prominencia y fraseología. Convenciones de transcripción fonética y prosódica. El discurso oral.

2.2. Conceptos técnicos

Cómo funcionan los sistemas de aprendizaje automático: parámetros acústicos, representación vectorial, cálculo de probabilidades. Sistemas de redes neuronales. Herramientas de procesamiento para el análisis lingüístico del habla.

3. Reconocimiento del habla

3.1. Conceptos técnicos

Módulos de un reconocedor de habla. Desarrollo de modelos acústicos y lingüísticos. Aplicaciones de un reconocedor automático de habla. Sistemas comerciales y de código abierto.

3.2. Conceptos lingüísticos

Diseño y creación de corpora para entrenar estos modelos. La incorporación de un nuevo idioma en un sistema de reconocimiento: generación de modelos acústicos, creación de diccionarios, generación de modelos de lenguaje.

4. Conversión texto-habla

4.1. Conceptos técnicos

Aplicaciones de la conversión texto-habla. Estructura de un sintetizador de voz: procesamiento lingüístico y de la señal. Principales sistemas comerciales y de código abierto. El procesamiento lingüístico en la conversión texto-habla: preprocesado, normalización, análisis lingüístico, segmentación prosódica, transcripción fonética, predicción de acentos. Síntesis concatenativa, paramétrica y end-to-end. El rol de la prosodia y la calidad de voz.

4.2. Conceptos lingüísticos

Incorporación de un idioma nuevo a un conversor texto-habla. El desarrollo de un módulo de procesamiento lingüístico. Manipulación de la prosodia. La expresividad del habla. Evaluación y percepción.

5. Sistemas de diálogo

5.1. Conceptos técnicos

Estructura de un sistema de diálogo: reconocedor de habla; análisis del contenido; gestión del diálogo; generación del mensaje de respuesta; conversión texto-habla. Principales aplicaciones.

5.2. Conceptos lingüísticos

El proceso de creación de un sistema de diálogo: funcionalidad y dominio.

Metodología docente

La asignatura se plantea en torno a dos ejes:

las clases teóricas (24 horas), en las que se introducirán los diferentes conceptos lingüísticos y técnicos;
las prácticas (12 horas) y los seminarios (10 horas), en los que el alumno pondrá en práctica los conceptos teóricos de forma individual o en grupo con apoyo del profesor. Se tendrán que realizar entregas de las actividades realizadas en los seminarios para poder presentarse al examen final.

Se habilitarán foros en el aula global donde los estudiantes podrán realizar consultas, así como compartir y discutir información complementaria relacionada con el temario (artículos, videos, aplicaciones, etc.). Se requerirá la realización de un trabajo en grupo sobre uno de los temas tratados en clase, que se evaluará en forma de presentación oral.

Evaluación

La calificación final está dividida de la siguiente manera:

Actividades prácticas y seminarios (30%)

Presentación oral (20%)

Examen final (50%)

Para poder presentarse al examen final, el alumno tendrá que haber entregado todos los informes de seminario así como realizar la presentación oral del trabajo en grupos. Para aprobar la asignatura es necesario obtener un mínimo de 5 sobre 10, calculando la media de todas las áreas evaluables. En caso de obtener una calificación final inferior a 5, el estudiante tendrá que realizar el examen de recuperación. Este examen de recuperación incluirá conceptos explicados en las sesiones de teoría así como aspectos tratados en las prácticas y seminarios. La nota final de los estudiantes que tengan que presentarse a la recuperación será la obtenida en el examen de recuperación.

Bibliografía y recursos de información

Básica

Dan Jurafsky and James H. Martin. Speech and Language Processing (3rd ed. draft) [link]

Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep Learning. MIT Press. [link]

Complementaria

Pratap, et al. (2019) "Wav2Letter++: A Fast Open Source Speech Recognition System" In Proceedings of 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). [Link]

Pratap, et al. (2020) "Massively Multilingual ASR: 50 Languages, 1 Model, 1 Billion Parameters", In Proceedings of Interspeech 2020, Shanghai, China. [Link]

Hsu et al. (2019) "Hierarchical Generative Modelling for Controllable Speech Synthesis", In Proceedings of ICLR 2019. [Link]

Moore, R.G.- Skidmore, L. (2019) "On the Use/Misuse of the Term ‘Phoneme’", in Proceedings of Interspeech, Graz, Austria. [Link]

Watts, et al. (2016) "From HMMS to DNNS: Where do the improvements come from?," in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Shanghai, pp. 5505-5509. [Link]