Consulta de Guies DocentsCurs Acadèmic: 2022/23

8037 - Màster Universitari en Lingüística Teòrica i Aplicada

31373 - Corpus i Eines Informàtiques


Informació de la Guia Docent

Curs acadèmic:
2022/23
Centre acadèmic:
803 - Centre Màsters del Departament de Traducció i Ciències del Llenguatge
Estudi:
8037 - Màster Universitari en Lingüística Teòrica i Aplicada
Assignatura:
31373 - Corpus i Eines Informàtiques
Àmbit:
---
Crèdits:
5.0
Curs:
1
Idiomes de docència:
Teoria: Grup 1: Anglès
Seminari: Grup 101: Anglès
Grup 102: Anglès
Professorat:
Maria Nuria Bel Rafecas
Periode d'Impartició:
Primer trimestre
Horari:

Presentació

L'assignatura Corpus i eines de programari tracta sobre la metodologia per dur a terme investigacions empíriques basades en corpus sobre lingüística i lingüística aplicada. En particular, es tracta l'ús de programes com a eines bàsiques per gestionar grans quantitats de dades de text.

L'objectiu de l'assignatura és que l'estudiant conegui la raó dels programes i eines que ajuden els investigadors a l'hora de treballar amb dades lingüístiques procedents d'un objecte d'estudi anomenat corpus, que és una col·lecció de textos.

 

Competències associades

CGS1. Creativitat per a la recerca de postgrau i la pràctica professional

CT1.6. Capacitat per dissenyar i revisar processos de manera sistemàtica

CE. Desenvolupar la metodologia de l'anàlisi lingüística argumentativa i empírica.

Resultats de l'aprenentatge

— Aplicació de criteris per al disseny de corpus i ús d'eines d'última generació  per compilar un corpus amb finalitats específiques.

— Ús de conceptes, com ara representativitat i significació, per a la recerca empírica en lingüística

— Definició dels requisits necessaris per trobar eines (i fonts d'informació) i funcionalitats per utilitzar-les.

— Descobriment, instal·lació i ús d'eines que realitzen funcions típiques de la lingüística de corpus, inclosa la comprensió de la concordança de patrons amb expressions regulars i eines d'anotació de corpus.

— Coneixement de la terminologia de PNL i processament de textos.

Objectius de Desenvolupament Sostenible

#ODS4 Educació de qualitat

4.3 Per al 2030, assegurar l’accés en condicions d’igualtat per a tots els homes i les dones a una formació tècnica, professional i superior, inclosa la universitat, accessible i de qualitat.

4.4 Per al 2030, augmentar substancialment el nombre de joves i adults que tenen les competències necessàries, en particular tècniques i professionals, per accedir a l’ocupació, el treball decent i l’emprenedoria.

#ODS5 Igualtat de gènere

5.b Millorar l’ús de la tecnologia instrumental, en particular la tecnologia de la informació i les comunicacions, per promoure l’apoderament de la dona

#ODS9 Indústria, innovació i infraestructura

9.5 Augmentar la recerca científica i millorar la capacitat tecnològica dels sectors industrials de tots els països, en particular els països en desenvolupament, entre altres coses fomentant, per al 2030, la innovació i l’augment substancial del nombre de persones que treballen en el camp de la investigació i el desenvolupament per cada milió de persones, així com augmentant les despeses en recerca i desenvolupament dels sectors públic i privat

Prerequisits

No hi ha prerequisits

Continguts

Secció 1

- Què és un corpus? Per què utilitzar ordinadors?

— Eines per a funcions bàsiques. Paraula clau en context, KWIC i concordances. Comptar freqüències de paraules. Importància de la freqüència relacionada amb els contextos. Comptar les freqüències de seqüències de paraules. Comptar les freqüències de seqüències de paraules que estan especialment relacionades, és a dir, col·locacions. Avaluació de la força d'una relació, és a dir, informació mútua. Cerca de patrons i expressions regulars.

Secció 2

— Representativitat, equilibri i mostra. Corpus de referència. Corpus de referència més coneguts i altres fonts de textos.

— Tipus de corpus. Corpus generals. Corpus especialitzats. Corpus escrits. Corpus parlats. Corpus sincrònics. Corpus diacrònics. Corpus de l'aprenent. Monitor de corpus. Drets d'autor i altres qüestions legals.

Secció 3

— Mark-up i  corpus. Des de la codificació de caràcters fins als llenguatges de marcatge Corpus. Metadades per descriure el corpus.

— Anotació del corpus. Nivells d'anotació lingüística. Eines per a l'anotació de corpus.

Secció 4

— Corpus paral·lels i eines específiques. Eines per trobar textos paral·lels. Alineació de textos paral·lels. Explotació de corpus paral·lels.

Metodologia docent

Les característiques principals de l'assignatura són les següents:

L'assignatura es basa principalment en exercicis pràctics perquè l'estudiant adquireixi les competències enumerades a l'apartat 3 d'aquest document. Atès que la competència es defineix com una habilitat apresa per realitzar adequadament una tasca i engloba coneixements, habilitats i actituds, l'objectiu d'aquest curs és que els estudiants siguin capaços de realitzar amb èxit tasques específiques relacionades amb corpus mitjançant eines de processament. El temps de classe es dedicarà a la introducció de continguts relatius a aquestes eines. El temps del seminari es dedicarà a debats i exercicis.

El curs s'organitzarà en dos blocs principals que corresponen aproximadament a 5 setmanes cadascun. A la primera meitat, seguirem dos estudis (i publicacions) seleccionats, que componen una ràpida introducció a les eines prototípiques després d'experiments/estudis fets per altres. Així, els alumnes treballaran exercicis seguint els continguts introduïts a les classes.

La segona meitat del curs exigeix ​​que l'alumnat defineixi un experiment que implica la definició i creació d'un corpus i la seva explotació mitjançant les eines que han après a la primera part del curs. Per avaluar el seu projecte, cada estudiant haurà d'escriure un treball sobre ell. El document serà revisat per parells per altres estudiants del curs (utilitzant directrius basades en el procés de revisió per iguals actual per a conferències destacades).

Avaluació

L'avaluació principal es basarà en l'obtenció d'evidències de l'adquisició de les competències esmentades abans i la nota final es valorarà a partir de les ràtios següents:

a. Pràctiques: 45%

b. Projecte final, l'article: 45%

c. Participació en el procés d'avaluació per iguals del projecte final: 10%

En cas de suspens després de l'avaluació principal, l'estudiant haurà de lliurar un treball final (revisat) en un termini de dos mesos.

Bibliografia i recursos d'informació

Nice short introduction to corpus and use of tools by Tony McEnery:
 
Anatol Stefanowitsch, 2019, Corpus Linguistics: A guide to the methodology. Language Science Press. Available http://langsci-press.org/catalog/book/148
 
Students will be provided with a licence to use it. 
 
Anthony, Laurence. (2013). “A critical look at software tools in corpus linguistics.” Linguistic Research 30(2), 141-161.
 
O’Keeffe A, McCarthy M. The Routledge handbook of corpus linguistics. Second edition. O’Keeffe A, McCarthy M, editors. London ;: Routledge; 2022


Academic Year: 2022/23

8037 - Theoretical and Applied Linguistics - MA

31373 - Corpora and Computational Tools


Teaching Guide Information

Academic Course:
2022/23
Academic Center:
803 - Masters Centre of the Department of Translation and Language Sciences
Study:
8037 - Theoretical and Applied Linguistics - MA
Subject:
31373 - Corpora and Computational Tools
Ambit:
---
Credits:
5.0
Course:
1
Teaching languages:
Theory: Group 1: English
Seminar: Group 101: English
Group 102: English
Teachers:
Maria Nuria Bel Rafecas
Teaching Period:
First quarter
Schedule:

Presentation

 
The course Corpus and software tools is about methodology for carrying out empirical, corpus-based research on linguistics and applied linguistics. In particular is about the use of software programs as basic tools to handle large quantities of text data.
 
The objective of the course is to get students acquainted with the rationale behind the programs and tools that assist researchers when handling linguistic data coming from an object of study called a corpus, which is a collection of texts. 

Associated skills

CGS1. Creativity for postgraduate research and professional practice

CT1.6. Ability to design and review processes systematically

CE. Develop with the methodology of argumentative and empirical linguistic analysis.

Learning outcomes

—  Application of state-of-the-art criteria for corpus design and use of tools to compile a corpus for specific purposes

—  Use of concepts, such as representativeness and significance, for empirical research in linguistics

—  Definition of requirements needed to find tools (and information sources) and functionalities to utilize them.

—  Discovery, installation and use of tools that perform typical Corpus Linguistics functions, including the understanding of pattern matching with Regular Expressions and corpus annotation tools

—  Familiarity with terminology of NLP and Text Processing.

Sustainable Development Goals

#ODS4 Educació de qualitat

4.3 Per al 2030, assegurar l’accés en condicions d’igualtat per a tots els homes i les dones a una formació tècnica, professional i superior, inclosa la universitat, accessible i de qualitat.

4.4 Per al 2030, augmentar substancialment el nombre de joves i adults que tenen les competències necessàries, en particular tècniques i professionals, per accedir a l’ocupació, el treball decent i l’emprenedoria

#ODS5 Igualtat de gènere

5.b Millorar l’ús de la tecnologia instrumental, en particular la tecnologia de la informació i les comunicacions, per promoure l’apoderament de la dona

#ODS9 Indústria, innovació i infraestructura

9.5 Augmentar la recerca científica i millorar la capacitat tecnològica dels sectors industrials de tots els països, en particular els països en desenvolupament, entre altres coses fomentant, per al 2030, la innovació i l’augment substancial del nombre de persones que treballen en el camp de la investigació i el desenvolupament per cada milió de persones, així com augmentant les despeses en recerca i desenvolupament dels sectors públic i privat

 

 

Prerequisites

No prerequisits

Contents

Section 1

—  What is a corpus? Why to use computers?

—  Tools for basic functions. Keyword in Context, KWIC and concordances. Count frequencies of words. Significance of frequency related to contexts. Count frequencies of sequences of words. Count frequencies of sequences of words that are specially related, i.e. collocations. Assessment of the strength of a relation, i.e. Mutual Information. Pattern search and Regular Expressions.

Section 2

—  Representativeness, balance and sampling. Reference corpus. Most well-known reference corpus and other sources of texts.       

—  Types of corpora. General corpora. Specialized corpora. Written corpora. Spoken corpora. Synchronic corpora. Diachronic corpora. Learner corpora. Monitor corpora. Copyrights and other legal issues.

Section 3

—  Corpus mark-up. From character encoding to Corpus mark-up languages. Metadata for describing corpus.

—  Corpus annotation. Levels of Linguistic Annotation. Tools for the annotation of corpora.

Section 4

—  Parallel corpora and specific tools. Tools for finding parallel texts. Alignment of parallel texts. Exploitation of parallel corpora.

Teaching Methods

The main characteristics of the course are the following: The course is based mainly on practical exercises  for the student to acquire the competences listed in section 3 of this document. Since competence is defined as a learned ability to adequately perform a task and encompasses knowledge, skills and attitudes, the goal of this course is for the students to be able to successfully perform specific corpus-based related tasks using processing tools. The class time will be devoted to the introduction of contents regarding these tools. The seminar time will be devoted to discussions and exercises.

The course will be organized in two main blocks that roughly correspond to 5 weeks each. In the first half, we will follow two selected studies (and publications), which compose a quick introduction to prototypical tools following experiments/studies made by others. Thus, the students will work on exercises following the content introduced in classes.

The second half of the course requires the students to define an experiment that involves the definition and creation of a corpus and its exploitation by means of the tools they have learned about in the first part of the course. In order to evaluate his or her project, each student will be required to write a paper about it. The paper will be peer-reviewed by other students of the course (using guidelines based on current peer review process for outstanding conferences).

Evaluation

Main evaluation will be based on getting evidence on the acquisition of the competences mentioned before and the final mark will be assessed from the following ratios:

a.   Homework assignments: 45%  

b.   Final project, the paper: 45%

c.   Participation in the final project peer-evaluation process: 10%

In case of failure after the main evaluation, the student must deliver a (revised) final project in two months time.

Bibliography and information resources

Nice short introduction to corpus and use of tools by Tony McEnery:
 
Anatol Stefanowitsch, 2019, Corpus Linguistics: A guide to the methodology. Language Science Press. Available http://langsci-press.org/catalog/book/148
 
Students will be provided with a licence to use it. 
 
Anthony, Laurence. (2013). “A critical look at software tools in corpus linguistics.” Linguistic Research 30(2), 141-161.
 
O’Keeffe A, McCarthy M. The Routledge handbook of corpus linguistics. Second edition. O’Keeffe A, McCarthy M, editors. London ;: Routledge; 2022.


Curso Académico: 2022/23

8037 - Máster Universitario en Lingüística Teórica y Aplicada

31373 - Corpus y Herramientas Informáticas


Información de la Guía Docente

Curso Académico:
2022/23
Centro académico:
803 - Centro Másteres del Departamento de Traducción i Ciencias del Lenguaje
Estudio:
8037 - Máster Universitario en Lingüística Teórica y Aplicada
Asignatura:
31373 - Corpus y Herramientas Informáticas
Ámbito:
---
Créditos:
5.0
Curso:
1
Idiomas de docencia:
Teoría: Grupo 1: Inglés
Seminario: Grupo 101: Inglés
Grupo 102: Inglés
Profesorado:
Maria Nuria Bel Rafecas
Periodo de Impartición:
Primer trimestre
Horario:

Presentación

La asignatura Corpus y herramientas de software presenta la metodología para realizar investigaciones empíricas basadas en corpus sobre lingüística y lingüística aplicada. En particular, se trata de utilizar programas como herramientas básicas para gestionar grandes cantidades de datos de texto.

El objetivo de la asignatura es que el estudiante conozca la razón de los programas y herramientas que ayudan a los investigadores a la hora de trabajar con datos lingüísticos procedentes de un objeto de estudio llamado corpus, que es una colección de textos.

Competencias asociadas

CGS1. Creatividad para la investigación de posgrado y la práctica profesional

CT1.6. Capacidad para diseñar y revisar procesos de forma sistemática

CE. Desarrollar con la metodología del análisis lingüístico argumentativo y empírico.

Resultados del aprendizaje

- Aplicación de criterios de para el diseño de corpus y uso de herramientas última generación para compilar un corpus con fines específicos.

- Uso de conceptos como representatividad y significación para la investigación empírica en lingüística

- Definición de los requisitos necesarios para encontrar herramientas (y fuentes de información) y funcionalidades para utilizarlas.

- Descubrimiento, instalación y uso de herramientas que realizan funciones típicas de la lingüística de corpus, incluida la comprensión de la búsqueda de patrones con expresiones regulares y herramientas de anotación de corpus.

- Conocimiento de la terminología de PNL y procesamiento de textos.

Objetivos de Desarrollo Sostenible

# ODS4 Educación de calidad

4.3 Para 2030, garantizar la igualdad de acceso de todos los hombres y mujeres a la enseñanza técnica, profesional y superior, incluida la universitaria, accesible y de alta calidad.

4.4 De aquí a 2030, aumentar sustancialmente el número de jóvenes y adultos que poseen las competencias necesarias, en particular técnicas y profesionales, para acceder al empleo, al trabajo decente y al espíritu empresarial.

# ODS5 Igualdad de género

5.b Mejorar el uso de la tecnología instrumental, en particular la tecnología de la información y la comunicación, para promover el empoderamiento de las mujeres

# ODS9 Industria, innovación e infraestructuras

9.5 Aumentar la investigación científica y mejorar la capacidad tecnológica de los sectores industriales de todos los países, en particular de los países en desarrollo, entre otras cosas fomentando, para 2030, la innovación y un aumento sustancial del número de personas que trabajan en el ámbito de la investigación y el desarrollo por millón de habitantes, así como aumentando el gasto en investigación y desarrollo en los sectores público y privado

Prerrequisitos

No hay pre-requisitos.

Contenidos

Sección 1

- ¿Qué es un corpus? ¿Por qué utilizar ordenadores?

- Herramientas para funciones básicas. Palabra clave en contexto, KWIC y concordancias. Contar frecuencias de palabras. Importancia de la frecuencia relacionada con los contextos. Contar las frecuencias de secuencias de palabras. Contar las frecuencias de secuencias de palabras especialmente relacionadas, es decir, colocaciones. Evaluación de la fuerza de una relación, es decir, información mutua. Búsqueda de patrones y expresiones regulares.

Sección 2

- Representatividad, equilibrio y muestra. Corpus de referencia. Corpus de referencia más conocidos y otras fuentes de textos.

- Tipo de corpus. Corpus generales. Corpus especializados. Corpus escritos. Corpus hablados. Corpus sincrónicos. Corpus diacrónicos. Corpus del aprendiz. Monitor de corpus. Derechos de autor y otras cuestiones legales.

Sección 3

- Mark-up y corpus. Desde la codificación de caracteres hasta los lenguajes de marcación Corpus. Metadatos para describir el corpus.

- Anotación del corpus. Niveles de anotación lingística. Herramientas para la anotación de corpus.

Sección 4

- Corpus paralelos y herramientas específicas. Herramientas para encontrar textos paralelos. Alineación de textos paralelos. Explotación de corpus paralelos.

Metodología docente

Las características principales de la asignatura son las siguientes:

La asignatura se basa principalmente en ejercicios prácticos para que el estudiante adquiera las competencias enumeradas en el apartado 3 de este documento. Dado que la competencia se define como una habilidad aprendida para realizar adecuadamente una tarea y engloba conocimientos, habilidades y actitudes, el objetivo de este curso es que los estudiantes sean capaces de realizar con éxito tareas específicas relacionadas con corpus mediante herramientas de procesamiento. El tiempo de clase se dedicará a la introducción de contenidos relativos a estas herramientas. El tiempo del seminario se dedicará a debates y ejercicios.

El curso se organizará en dos bloques principales que corresponden a aproximadamente 5 semanas cada uno. En la primera mitad, seguiremos dos estudios (y publicaciones) seleccionados, que componen una rápida introducción a las herramientas prototípicas después de experimentos/estudios realizados por otros. Así, los alumnos trabajarán ejercicios siguiendo los contenidos introducidos en las clases.

En la segunda mitad del curso se exige que el alumnado diseñe un experimento que implica la definición y creación de un corpus y su explotación mediante las herramientas que ha aprendido en la primera parte del curso y escribir un trabajo.  El documento será revisado por pares por otros estudiantes del curso (utilizando directrices basadas en el proceso de revisión por iguales actual para conferencias destacadas).

Evaluación

La evaluación principal se basará en la obtención de evidencias de la adquisición de las competencias antes mencionadas y la nota final se valorará a partir de los siguientes ratios:

a. Prácticas: 45%

b. Proyecto final, el artículo: 45%

c. Participación en el proceso de evaluación por iguales del proyecto final: 10%

En caso de suspenso después de la evaluación principal, el estudiante deberá entregar un trabajo final (revisado) en un plazo de dos meses.

Bibliografía y recursos de información

Nice short introduction to corpus and use of tools by Tony McEnery:
 
Anatol Stefanowitsch, 2019, Corpus Linguistics: A guide to the methodology. Language Science Press. Available http://langsci-press.org/catalog/book/148
 
Students will be provided with a licence to use it. 
 
Anthony, Laurence. (2013). “A critical look at software tools in corpus linguistics.” Linguistic Research 30(2), 141-161.
 
O’Keeffe A, McCarthy M. The Routledge handbook of corpus linguistics. Second edition. O’Keeffe A, McCarthy M, editors. London ;: Routledge; 2022