Consulta de Guies Docents



Curs Acadèmic: 2022/23

3343 - Grau en Traducció i Interpretació

25619 - Indústries de la Llengua


Informació de la Guia Docent

Curs acadèmic:
2022/23
Centre acadèmic:
334 - Facultat de Traducció i Ciències del Llenguatge
Estudi:
3343 - Grau en Traducció i Interpretació
Assignatura:
25619 - Indústries de la Llengua
Crèdits:
5.0
Curs:
4 i 3
Idiomes de docència:
Teoria: Grup 1: Català
Seminari: Grup 101: Català
Professorat:
Maria Nuria Bel Rafecas
Periode d'Impartició:
Tercer trimestre
Horari:

Presentació

Les indústries de la llengua són les que cobreixen el disseny, producció i comercialització de productes i serveis relacionats amb els coneixements lingüístics. Són productes i serveis que se subministren de forma industrial: traducció, interpretació i doblatge, internacionalització i globalització de programari i llocs web, correcció i edició de textos, ensenyament d’idiomes, consultoria lingüística, classificació de documents i gestió documental. Amb el desenvolupament tecnològic  el nombre de tasques lingüístiques que ja s’han automatitzat i s’ofereixen com productes o serveis ha crescut, en són exemples els assistents virtuals, els sistemes de traducció automàtica, els d’aprenentatge d’idiomes, etc.

L’assignatura d’Indústries de la llengua està plantejada com una matèria que serveix d'introducció als perfils formatius de Tecnologies de la TraduccióLlengües i Tecnologia en els que es formen els professionals d'aquestes àrees, i també  com a una assignatura que proporciona coneixements bàsics per als alumnes d'altres especialitzacions que sortiran al mercat de treball. Per aquells estudiants que no vulguin seguir cap d’aquests perfils, l’assignatura els aportarà un coneixement de mètodes i eines que podran usar en el seu lloc de treball, així com una comprensió de l’automatització de tasques que el pot fer un professional més eficient.

L’assignatura d’Indústries de la llengua ofereix una visió bàsica (i pràctica) dels fonaments de les tecnologies del llenguatge en àmbits industrials com l'ensenyament de llengües, anàlisi d'opinió i classificació de documents, assistents virtuals i la traducció automàtica. Les pràctiques suposen un conjunt d’exercicis per adquirir conceptes bàsics de programació informàtica i familiaritat amb eines senzilles que permeten fer operacions bàsiques de manipulació de textos.

Competències associades

a) Competències bàsiques

  • CB2. Que els estudiants sàpiguen aplicar els seus coneixements en el seu treball o vocació d’una forma professional i posseeixin les competències que solen demostrar-se per mitjà de l’elaboració i defensa d’arguments i la resolució de problemes dins la seva àrea d’estudi 
  • CB3. Que els estudiants tinguin la capacitat de reunir i interpretar dades rellevants (normalment dins la seva àrea d'estudi) per emetre judicis que incloguin una reflexió sobre temes rellevants d'índole social, científica o ètica
  • CB4. Que els estudiants puguin transmetre informació, idees, problemes i solucions a un públic tant especialitzat com no especialitzat
  • CB5. Que els estudiants hagin desenvolupat aquelles habilitats d’aprenentatge necessàries per emprendre estudis posteriors amb un alt grau d’autonomia

b) Competències generals

  • G1. Treballar individualment i en equip
  • G3. Treballar en contextos interdisciplinaris

c) Competències específiques

  • E12. Aplicar rigor en la revisió i el control de qualitat de la mediació lingüística (Llengües Aplicades)
  • E14. Dissenyar i gestionar projectes lingüístics en àmbits educatius, en empreses i institucions i en relació amb el desenvolupament de tecnologies lingüístiques (Llengües Aplicades)

Resultats de l'aprenentatge

  • RA3. Analitza les tasques que realitzen les aplicacions informàtiques que tenen com a objecte textos (orals o escrits) i la seva aplicació en l’àmbit de la investigació i de la indústria.
    • Descriu i dissenya un projecte de servei lingüístic amb anàlisi automàtic de textos, i ús d’eines i mètodes informàtics, amb especial èmfasi en el control de qualitat.
  • RA6. Implementa cadenes de processament de textos utilitzant plataformes i eines simples de programació.
    • Recull un corpus de dades per entrenament i el prepara per al seu processament.
  • RA7. Dissenya i construeix aplicacions informàtiques per preparar corpus de textos per al seu processament, per a l’extracció de mostres específiques i per al càlcul i anàlisi de dades.
    • Aplica algorismes i mesures de distància amb representacions vectorials de textos per a diferents tasques de classificació.
    • Escriu expressions regulars eficients per a l’extracció de dades del corpus i la preparació de vectors.
    • Construeix un classificador supervisat per a anàlisi de sentiment i l’avalua amb mètriques estàndard.

Objectius de Desenvolupament Sostenible

Aquest curs es proposa contribuir als següents objectius:

#ODS4 Educació de qualitat

4.3 Per al 2030, assegurar l’accés en condicions d’igualtat per a tots els homes i les dones a una formació tècnica, professional i superior, inclosa la universitat, accessible i de qualitat.

4.4 Per al 2030, augmentar substancialment el nombre de joves i adults que tenen les competències necessàries, en particular tècniques i professionals, per accedir a l’ocupació, el treball decent i l’emprenedoria.

#Objectiu 5. Igualtat de gènere: Aconseguir la igualtat de gènere a través de l'enfortiment de dones adultes i joves.

Aquest curs proposa continguts tecnològics i convida als estudiants, que en aquesta carrera són majoritàriament dones, a considerar sortides laborals relacionades amb el desenvolupament de programari i aplicacions informàtiques.

#Objectiu 8. Treball digne i creixement econòmic: Promoure un creixement econòmic sostingut, inclusiu i sostenible, una ocupació plena i productiva, i un treball digne per a tothom.

Aquest curs presenta les característiques del mercat de treball relacionat amb els serveis lingüístics cada vegada més automatitzats. El curs ofereix informació sobre la reconversió dels llocs de treball tradicionals a les indústries de la llengua, per llocs més tecnològics que ja són presents en la demanda del sector.

Prerequisits

No hi ha prerequisits.

Continguts

Els continguts del curs són:

UD1. Indústries de la llengua. Definició i caracterització del mercat dels serveis i productes lingüístics actual. Evolució del mercat i de la tecnologia.  Tasques lingüístiques a l’automatització i industrialització dels serveis lingüístics en el mercat actual.

UD2. Tecnologies del Llenguatge i Processament del Llenguatge Natural. Alguns conceptes bàsics. Algoritme, dades, mètodes. Conceptes bàsics d’avaluació de sistemes (exactitud, precisió, cobertura). Operacions per línia de comandes.

UD3. Aplicacions d’ensenyament de llengües. El mercat de les aplicacions d’ensenyament de llengües. Automatització de proves de nivell d’idioma. Característiques observables i mesurables. Algunes comandes bàsiques de programació amb awk i bash. Avaluació de resultats: conjunts de proves.

UD4. Assistents virtuals. Tipus i usuaris dels sistemes actuals. Característiques dels diàlegs i conceptes bàsics del disseny d’assistents: intencions, entitats i cobertura del sistema. Ús de l’editor sed per transformar dades. Productes comercials de disseny d’assistents.

UD5. Classificació de documents i aplicacions. Conceptes bàsics de probabilitat bayesiana, aprenentatge automàtic i intel·ligència artificial per entendre la classificació automàtica. Drets de còpia i qüestions  d’ètica de l’ús de dades. Representació vectorial del text i bossa de paraules. Desenvolupament d’un classificador de textos.

UD6. Traducció automàtica. Sistemes actuals, usuaris i desenvolupadors. Conceptes bàsics per entendre la TA neuronal. Compilació de dades monolingües i multilingües. Cobertura lèxica dels sistemes. Avaluació (BLUE i WE) i comparació de sistemes de TA.

Metodologia docent

Les sessions de Grup Gran seran presentacions de continguts amb exercicis relationats a l’horari establert. Els alumnes també tindran vídeos d’explicacions a l'Aula Global. Cada vídeo, que estarà disponible amb 48h d’antelació, tindrà associat un fòrum on els alumnes podran, abans de la sessió, escriure preguntes i dubtes. La professora resoldrà aquestes preguntes i dubtes a la sessió síncrona. La segona part es dedicarà a la resolució guiada d’exercicis relacionats amb els continguts i la solució de dubtes.

Les sessions de seminari es dedicaran a resoldre dubtes dels exercicis avaluables que estaran disponibles amb antelació per tal que l'estudiant pugui treballar-los abans de classe i a respondre un qüestionari sobre els exercicis a l'Aula Global al final de cada sessió. 

L'assignatura és presencial i es imprescindible l'assistència a les classes. 

Avaluació

L'avaluació serà: 

Activitat avaluable

Ponderació

Recuperable

Forma de recuperació

Ponderació

Presentació Oral

25%

Presentació Oral

40%

Pràctiques: Treball individual

50%

Qüestionari

60%

Pràctiques: Treball en grup

25%

No

 

 

Bibliografia i recursos d'informació

Lectures obligatòries.

  • Dan Jurafsky and James H. Martin. Speech and Language Processing (3rd ed. draft). Ch. 2 i 24

https://web.stanford.edu/~jurafsky/slp3/2.pdf  

https://web.stanford.edu/~jurafsky/slp3/24.pdf


Academic Year/course: 2022/23

3343 - Bachelor's (degree) programme in Translation and Interpretation

25619 - Language Industries


Teaching Guide Information

Academic Course:
2022/23
Academic Center:
334 - Translation and language sciences
Study:
3343 - Bachelor's (degree) programme in Translation and Interpretation
Subject:
25619 - Language Industries
Credits:
5.0
Course:
3 and 4
Teaching languages:
Theory: Group 1: Catalan
Seminar: Group 101: Catalan
Teachers:
Maria Nuria Bel Rafecas
Teaching Period:
Third Quarter
Schedule:

Presentation

The language industries are those that cover the design, production and marketing of products and services related to language skills. These are products and services such as translation, interpretation and dubbing, internationalization and globalization of software and websites, proofreading and editing of texts, language teaching, language consulting, document classification and document management. With technological development, the number of language tasks that have already been automated and offered as industrial products or services has grown, with new services as virtual assistants, machine translation systems, language learning systems, and so on.

The subject of Language Industries is proposed as an introduction to the training profiles of Translation Technologies and Languages ​​and Technology in which professionals of these areas are trained, and also as a subject that provides basic knowledge for  students of other specializations who will enter the job market. For those students who do not want to follow  these technological profiles, the course will provide them with a knowledge of methods and tools that they can use in their workplace, as well as an understanding of the automation of tasks that a professional can do more efficiently.

The subject of Language Industries offers a basic (and practical) view of the fundamentals of language technologies in industrial fields such as language teaching, opinion analysis and document classification, virtual assistants and machine translation. The course includes a number of practical exercises to acquire basic concepts of computer programming and familiarity with simple tools that allow you to perform basic text manipulation operations.

Associated skills

This course contributes to the acquisition of the following skills as defined in the description of the degree.

a) Basic competences

  • CB2. 
  • CB3. 
  • CB4. 
  • CB5. 

b) General competences

  • G1. 
  • G3. 

c) Specific competences

  • E12. 
  • E14.

Learning outcomes


LO1. Compiling and manipulating a corpus and prepare it for processing with command line tools.

LO2. Converting texts into their vector representation.

LO3. Writing efficient regular expressions.

LO4. Preparing the data to train and evaluate an automatic classifier.

Sustainable Development Goals

This course aims to contribute to the following objectives:

Objective 5. Gender equality: Achieve gender equality through the empowerment of adult and young women.

This course proposes technological content and invites students, who in this career are mostly women, to consider job opportunities related to the development of software and computer applications.

Goal 8. Decent work and economic growth: Promote sustained, inclusive and sustainable economic growth, full and productive employment, and decent work for all people.

This course presents the characteristics of the job market related to increasingly automated language services. The course offers information on the reconversion of traditional jobs in the language industries, for more technological positions that are already present in the demand of the sector.

Prerequisites

No requirements

Contents

The program includes the following contents

1. Language industries. Definition and characterization of the current market for linguistic services and products. Market and technology evolution. Linguistic tasks in the automation and industrialization of linguistic services in today's market.

2. Language Technologies and Natural Language Processing. Some basics. Algorithm, data, methods. Basic concepts of systems evaluation (accuracy, precision, coverage). Command line operations to extract numerical data from texts.

3. Language teaching applications. The market for language teaching applications. Language level test automation. Some basic programming commands with awk and bash. Evaluation of joint test results.

4. Virtual assistants. Types and users of current systems. Characteristics of the dialogs and basic concepts of wizard design: intentions, entities, and system coverage. Using the sed editor to transform data. Commercial wizard design products.

5. Classification of documents and applications. Basics of Bayesian probability, machine learning and artificial intelligence to understand automatic classification. Copy rights and ethical issues of data use. Vector representation of the text and bag of words. Development of a text classifier.

6. Machine Translation. Current systems, users, and developers. Basic concepts to understand neuronal MT. Monolingual and multilingual data compilation. Lexical coverage of the systems. Evaluation (BLUE and WE) and comparison of MT systems.

Teaching Methods

The Grup Gran sessions will be content presentations and related exercises at the established time. Students will also have videos of explanations in the Aula Global. Each video, which will be available 48 hours in advance, will have an associated forum where students can post questions and doubts.

The seminar sessions will be dedicated to solve issues related to  the exercises that will be available in advance so that the student will be able to work on them before the class. During the class, the students will be asked to respond a related questionnaire. 

Attendance to all the classes is considered unavoidable. 

 

Evaluation

The mark will be calculated as follows:

 

Assessment

Weight

Retake

How to retake

Weight

Oral presentation

25%

Yes

Oral presentation

40%

Individual exercises

50%

Yes

Questionnaire

60%

Group exercises

25%

No

 

 

Bibliography and information resources

Mandatory readings:

  • Dan Jurafsky and James H. Martin. Speech and Language Processing (3rd ed. draft). Ch. 2 i 24

https://web.stanford.edu/~jurafsky/slp3/2.pdf  

https://web.stanford.edu/~jurafsky/slp3/24.pdf


Curso Académico: 2022/23

3343 - Grado en Traducción e Interpretación

25619 - Industrias de la Lengua


Información de la Guía Docente

Curso Académico:
2022/23
Centro académico:
334 - Facultad Traducción y Ciencias del Lenguaje
Estudio:
3343 - Grado en Traducción e Interpretación
Asignatura:
25619 - Industrias de la Lengua
Créditos:
5.0
Curso:
4 y 3
Idiomas de docencia:
Teoría: Grupo 1: Catalán
Seminario: Grupo 101: Catalán
Profesorado:
Maria Nuria Bel Rafecas
Periodo de Impartición:
Tercer trimestre
Horario:

Presentación

Las industrias de la lengua son las que cubren el diseño, producción y comercialización de productos y servicios relacionados con los conocimientos lingüísticos. Son productos y servicios que se suministran de forma industrial: traducción, interpretación y doblaje, internacionalización y globalización de software y sitios web, corrección y edición de textos, enseñanza de idiomas, consultoría lingüística, clasificación de documentos y gestión documental. Con el desarrollo tecnológico, el número de tareas lingüísticas que ya se han automatizado y se ofrecen como productos o servicios ha crecido, por ejemplo: los asistentes virtuales, los sistemas de traducción automática, los de aprendizaje de idiomas, etc.

La asignatura de Industrias de la lengua está planteada como una materia que sirve de introducción a los perfiles formativos de Tecnologías de la Traducción y Lenguas y Tecnología en los que se forman los profesionales de estos servicios, y también como una asignatura que proporciona conocimientos básicos para los alumnos de otras especializaciones que saldrán al mercado de trabajo. Para aquellos estudiantes que no quieran seguir ninguno de estos perfiles tecnológicos, la asignatura les aportará un conocimiento de métodos y herramientas que podrán usar en su lugar de trabajo, así como una comprensión de la automatización de tareas que lo puede hacer un profesional más eficiente.

La asignatura de Industrias de la lengua ofrece una visión básica (y práctica) de los fundamentos de las tecnologías del lenguaje en ámbitos industriales como la enseñanza de lenguas, análisis de opinión y clasificación de documentos, asistentes virtuales y la traducción automática. Las prácticas suponen un conjunto de ejercicios para adquirir conceptos básicos de programación informática y familiaridad con herramientas sencillas que permiten realizar operaciones básicas de manipulación de textos.

Competencias asociadas

Este curso contribuye a adquirir las siguientes competencias que están definidas en la descripción del grado.

a) Competencias básicas

  • CB2. 
  • CB3. 
  • CB4. 
  • CB5. 

b) Competencias generales

  • G1. 
  • G3. 

c) Competencias específicas

  • E12. 
  • E14.

Resultados del aprendizaje

RA1. Compilación de un corpus y preparación para su procesamiento con herramientas de línea de comandos.
RA2. Convertir textos en su representación vectorial.
RA3. Escribir expresiones regulares eficientes.
RA4. Preparar los datos para entrenar y evaluar un clasificador automático.

Objetivos de Desarrollo Sostenible

Este curso se propone contribuir a los siguientes objetivos: 

Objetivo 5. Igualdad de género: Conseguir la igualdad de género a través del fortalecimiento de mujeres adultas y jóvenes.

Este curso propone contenidos tecnológicos e invita a los estudiantes, que en esta carrera son mayoritariamente mujeres, a considerar salidas laborales relacionadas con el desarrollo de software y aplicaciones informáticas.


Objetivo 8. Trabajo digno y crecimiento económico: Promover un crecimiento económico sostenido, inclusivo y sostenible, una ocupación plena y productiva, y un trabajo digno para todas las personas.

Este curso presenta las características del mercado de trabajo relacionado con los servicios lingüísticos cada vez más automatizados. El curso ofrece información sobre la reconversión de los puestos de trabajo tradicionales en las industrias de la lengua, por puestos más tecnológicos que ya están presentes en la demanda del sector.

Prerrequisitos

No hay prerrequisitos.

Contenidos

Los contenidos del curso son: 

UD1. Industrias de la lengua. Definición y caracterización del mercado actual de los servicios y productos lingüísticos. Evolución del mercado y de la tecnología. Tareas lingüísticas en la automatización e industrialización de los servicios lingüísticos en el mercado actual.

UD2. Tecnologías del Lenguaje y Procesamiento del Lenguaje Natural. Algunos conceptos básicos. Algoritmo, datos, métodos. Conceptos básicos de evaluación de sistemas (exactitud, precisión, cobertura). Operaciones por línea de comandos para extraer datos numéricos de los textos.

UD3. Aplicaciones de enseñanza de lenguas. El mercado de las aplicaciones de enseñanza de lenguas. Automatización de pruebas de nivel de idioma. Algunos comandos básicos de programación con awk y bash. Evaluación de resultados conjuntos de pruebas.

UD4. Asistentes virtuales. Tipos y usuarios de los sistemas actuales. Características de los diálogos y conceptos básicos del diseño de asistentes: intenciones, entidades y cobertura del sistema. Uso del editor sed para transformar datos. Productos comerciales de diseño de asistentes.

UD5. Clasificación de documentos y aplicaciones. Conceptos básicos de probabilidad bayesiana, aprendizaje automático e inteligencia artificial para entender la clasificación automática. Derechos de copia y cuestiones de ética del uso de datos. Representación vectorial del texto y bolsa de palabras. Desarrollo de un clasificador de textos.

UD6. Traducción automática. Sistemas actuales, usuarios y desarrolladores. Conceptos básicos para entender la TA neuronal. Compilación de datos monolingües y multilingües. Cobertura léxica de los sistemas. Evaluación (BLUE y WE) y comparación de sistemas de TA.

Metodología docente

Las sesiones de Grupo Grande serán presentaciones de contenidos y ejercicios relacionados en el horario establecido. Los alumnos también tendrán vídeos de explicaciones en el Aula Global. Cada vídeo, que estará disponible con 48h de antelación, tendrá asociado un foro donde los alumnos podrán escribir preguntas y dudas. La profesora resolverá estas preguntas y dudas en la sesión síncrona. La segunda parte se dedicará a la resolución guiada de ejercicios relacionados con los contenidos y la solución de dudas.

Las sesiones de seminario se dedicarán a resolver dudas de los ejercicios evaluables que estarán disponibles con antelación para que el estudiante pueda trabajarlos antes de clase y responder un cuestionario sobre los ejercicios en el Aula Global al final de cada sesión.

Se considera imprescindible seguir las clases presencialmente. 

Evaluación

La evaluación será: 

 

Actividad evaluable

Ponderación

Recuperable

Forma de recuperación

Ponderación

Presentación oral

25%

Presentación Oral

40%

Prácticas individuales

50%

Cuestionario

60%

Práctica en grupo

25%

No

 

 



Bibliografía y recursos de información

Lectures obligatorias.

  • Dan Jurafsky and James H. Martin. Speech and Language Processing (3rd ed. draft). Ch. 2 i 24

https://web.stanford.edu/~jurafsky/slp3/2.pdf  

https://web.stanford.edu/~jurafsky/slp3/24.pdf