69909 Los corpus orales

Joaquim Llisterri
Departamento de Filología Española

Módulo 40812: Aplicación de las tecnologías de la información y de la comunicación (TIC) a la Lengua Española

Máster oficial en Lengua Española y Literatura Hispánica


Objetivos

El bloque temático tiene como objetivo presentar la metodología empleada en el diseño, la recogida de datos, la transcripción, la anotación o etiquetado y el tratamiento informático de corpus orales en español. Se abordarán tanto los corpus propiamente orales como los que consisten en transcripciones de lengua hablada, considerando sus aplicaciones en la investigación lingüística.


Programa

1. Los corpus orales

El concepto de corpus. Corpus escritos y corpus orales. Especificidad de los corpus de lengua hablada: corpus orales (speech corpora) y corpus de lengua oral (spoken language corpora). Etapas en la constitución de los corpus de lengua hablada.

2. Diseño de corpus orales

La selección de los materiales del corpus. La selección de los informantes.

2.1. Corpus de lengua oral

Criterios de diseño derivados del análisis del discurso y del análisis de la conversación. Criterios de diseño derivados de la sociolingüística. Criterios de diseño derivados de la dialectología.

2.2. Corpus orales

Criterios de diseño de corpus para el estudio fonético segmental y suprasegmental: corpus semi-espontáneos y corpus ad-hoc. Criterios de diseño de corpus para el desarrollo de las tecnologías del habla: corpus para la síntesis, para el reconocimiento y para los sistemas de diálogo; corpus para otros ámbitos de las tecnologías del habla.

3. Obtención de corpus orales

El entorno de la grabación. Instrumentos para la grabación. Formatos de los ficheros de sonido. Los problemas de la grabación en entornos naturales. La grabación en un entorno de laboratorio.

4. Transcripción y etiquetado de corpus orales

4.1. La transcripción ortográfica de la lengua oral

Problemas de la representación ortográfica del habla espontánea: formas no normativas, variantes geográficas, números, siglas, acrónimos y abreviaturas, interjecciones y formas semi-léxicas, disfluencias, signos de puntuación. El concepto de transcripción ortográfica “enriquecida”.

4.2. La transcripción fonética de corpus orales

4.2.1. Transcripción fonética segmental

Sistemas de representación fonética segmental: AFI (Alfabeto Fonético Internacional), SAMPA (SAM-Phonetic Alphabet) y WordlBet.

4.2.2. Transcripción de los elementos suprasegmentales

Sistemas de representación de los elementos suprasegmentales: AFI (Alfabeto Fonético Internacional), SAMPROSA (SAM Prosodic Alphabet), INTSINT (International System for Intionation Transcription) y ToBI (Tones and Break Indices).

4.3. El etiquetado de los corpus orales

4.3.1. Niveles de etiquetado en los corpus orales

Etiquetado fonético segmental, fonológico segmental, fonético suprasegmental, fonológico suprasegmental. La relación entre los niveles de etiquetado. La alineación temporal.

4.3.2. Herramientas para el etiquetado de corpus orales

Herramientas de etiquetado de dominio público y multiplataforma: Praat y WaveSurfer.

5. Codificación de los corpus orales

5.1. El concepto de codificación

Los lenguajes de marcación: separación entre el texto y las marcas de codificación. La TEI (Text Encoding Initiative) como estándar de codificación.

5.2. La codificación del discurso oral

Elementos codificados en los corpus de lengua oral: divisiones, enunciados, pausas, elementos vocalizados semi-léxicos y no léxicos, elementos no vocales, eventos, texto escrito, cambios, identidad de los hablantes, turnos de palabra, fenómenos propios de la lengua hablada. - elisiones y fragmentos de palabras, disfluencias y autocorrecciones -, fragmentos no inteligibles.

6. Las aplicaciones y la explotación de los corpus orales

Formatos de almacenamiento del corpus. Procedimientos de consulta. La documentación del corpus.

6.1. Aplicaciones y explotación de corpus de lengua oral

Herramientas para el análisis textual. Frecuencia de aparición de palabras o de marcas. Concordancias. Colocaciones. Uso de corpus de lengua oral en estudios lingüísticos. Los corpus de lengua oral en la lingüística aplicada. Corpus de lengua oral y documentación de lenguas.

6.2. Aplicaciones y explotación de corpus orales

Herramientas para el análisis acústico de dominio público y multiplataforma: Praat y WaveSurfer. Uso de corpus orales en los estudios fonéticos y en el desarrollo de aplicaciones en el campo de las tecnologías del habla.


Bibliografía básica

Corpus orales

BRIZ, A. (Ed.) (2005) Los corpus de español hablado. Oralia. Análisis del discurso oral 8.

DRAXLER, C. (2000) "Speech databases", in VAN EYNDE, F. - GIBBON, D. (Eds.) Lexicon Development for Speech and Language Processing. Dordrecht: Kluwer Academic Publishers (Text, Speech and Language Technology, 12). pp. 169-206.

GIBBON, D. - MOORE, R.- WINSKI, R. (Eds.) (1998) Spoken Language Systems and Corpus Design. Berlin: Mouton De Gruyter. (Handbook of Standards and Resources for Spoken Language Systems, Volume I).

LLISTERRI, J. (1996) "Els corpus lingüístics orals", in PAYRATÓ, Ll. - BOIX, E. - LLORET, M.-R.- LORENTE, M. (Eds.) Corpus, Corpora. Actes del 1er i 2on Col·loquis Lingüístics de la Universitat de Barcelona (CLUB-1, CLUB-2). Barcelona: Promociones y Publicaciones Universitarias SA. pp. 27-70.
http://liceu.uab.cat/~joaquim/publicacions/UB_Corpus_93.pdf

MORENO FERNÁNDEZ, F. (1997) "La formación de corpus de lengua hablada", in MORENO FERNÁNDEZ, F. (Ed.) Trabajos de sociolingüística hispánica. Alcalá de Henares: Universidad de Alcalá, Servicio de Publicaciones (Ensayos y Documentos, 27) pp. 93-114.

SCHIEL, F. - DRAXLER, C. - BAUMANN, A. - ELLBOGEN, T. - STEFFEN, A. (2004) The Production of Speech Corpora. Version 2.5. Munich: Bavarian Archive for Speech Signals.
http://www.phonetik.uni-muenchen.de/Forschung/BITS/TP1/Cookbook/

Transcripción, codificación y etiquetado de corpus orales

BARRY, W. J. - FOURCIN, A. J. (1992) "Levels of Labelling", Computer Speech and Language 6: 1-14.

COSI, P. (2002) "Metodologie e sistemi per l’annotazione linguistica", Quaderni dell'Istituto di Fonetica e Dialettologia 4.
http://www2.pd.istc.cnr.it/Papers/quaderni2002.zip

DYBKJAER, L. - BERMAN, S. - KIPP, M. - WAGENER, M. - PIRRELLI, V. - REITHINGER, N. - SORIA, C. (2001) Survey of Existing Tools, Standards and User Needs for Annotation of Natural Interaction and Multimodal Data. ISLE Natural Interactivity and Multimodality Working Group. D11.1. January 2001.
http://spokendialogue.dk/Publications/2001f/D11.1-14.2.2001-F.pdf

EDWARDS, J. A.- LAMPERT, M. D. (Eds.) (1993) Talking Data: Transcription and Coding in Discourse Research. Hillsdale, N.J.: Lawrence Erlbaum Associates.

LEECH, G. - MYERS, G. - THOMAS, J. (Eds.) (1995) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman.

LLISTERRI, J. (1999) "Transcripción, etiquetado y codificación de corpus orales", Revista Española de Lingüística Aplicada, Volumen Monográfico “Panorama de la Investigación en Lingüística Informática”. pp. 53-82.
http://liceu.uab.cat/~joaquim/publicacions/RESLA_99.pdf

PAYRATÓ, Ll. (1995) "Transcripción del discurso coloquial", in CORTÉS RODRÍGUEZ, L. (Ed.) El español coloquial. Actas del I Simposio sobre Análisis del Discurso Oral. Almería, 23-25 de noviembre de 1994. Almería: Universidad de Almería, Servicio de Publicaciones. pp. 43-70.

WEGENER, R .- MARTIN, J. C. - DYBKJAER, L. - MACHUCA, M. J. - BERNSEN, N. O. - CARLETTA, J. - HEID, U.- KITA, S. - LLISTERRI, J. - PELACHAUD, C. - POGGI, I. - REITHINGER, N. - van ELSWIJKS, G. - WITTENBURG, P. (2002) Survey of Multimodal Coding Schemes and Best Practice. ISLE Natural Interactivity and Multimodality. Working Group Deliverable D9.1. February 2002.
http://spokendialogue.dk/Publications/2002o/D9.1-7.3.2002-F.pdf

WELLS, J. C. (2003) "Phonetic symbols in word processing and on the web", in Proceedings of the 15th International Congress of Phonetic Sciences. Barcelona, 3-9 August, 2003. CD-ROM Edition. Casual Productions. pp. 3105-3108.
http://www.phon.ucl.ac.uk/home/wells/ICPhS_18.pdf

Herramientas para el tratamiento de corpus orales

DELLWO, V. (2003) "Tools for a combined analysis of speech & gesture", in Proceedings of the 15th International Congress of Phonetic Sciences. Barcelona, 3-9 August, 2003. CD-ROM Edition. Casual Productions.
http://www.phonetiklabor.de/Phonetiklabor/Inhalt/Ver%F6ffentlichungen/PDFs/Speech&Gesture.pdf

GARG, S. - MARTINOVSKI, B. - ROBINSON, S. - STEPHAN, J. - TETREAULT, J. - TRAUM, D. R. (2004) "Evaluation of transcription and annotation tools for a multi-modal multi-party dialogue corpus", in LREC 2004. Proceeedings of the 4th International Conference on Language Resources and Evaluation. 26-28 May, 2004, Lisbon, Portugal. Paris: ELRA, European Language Resources Association. pp. 2163 - 2166.
http://ict.usc.edu/publications/tools6.pdf

JACOBSON, M. (2004) "Gestion de corpus oraux annotés: Méthodes et outils", in JEP 2004. XXVes Journées d'Etudes sur la Parole. 19-22 avril 2004, Fès, Maroc.
http://aune.lpl.univ-aix.fr/jep-taln04/proceed/actes/jep2004/Jacobson.pdf

ROHLFING, K. - LOEHR, D. - DUNCAN, S. - BROWN, A. - FRANKLIN, A .- KIMBARA, I. - MILDE, J.-T. - PARRILL, F. - ROSE, T. - SCHMIDT, T. - SLOETJES, H. - THIES, A. - WELLINGHOFF, A. (2005) "Comparison of multimodal annotation tools - workshop report", in Tools Symposium. Second Congress of the International Society for Gesture Studies. 15-18 June 2005. Université de Lyon 2, France.
http://www.gespraechsforschung-ozs.de/heft2006/tb-rohlfing.pdf

VÉRONIS, J. (Ed.) (2004) Le traitement automatique des corpus oraux, Traitement automatique des langues 45, 2.

Puede encontrarse una bibliografía más detallada en:
http://liceu.uab.cat/~joaquim/language_resources/spoken_res/biblio_corpus_orals.html


Evaluación

Evaluación general del módulo.

Evaluación de los alumnos que opten por realizar su trabajo sobre el bloque temático "Los corpus orales":

Para la evaluación del bloque temático los estudiantes presentarán por escrito un trabajo consistente en el diseño de un corpus oral o de un corpus de lengua oral. Deberán especificarse y justificarse los objetivos del corpus, su contenido, el procedimiento de elicitación, recogida y almacenamiento de los datos, los niveles de anotación lingüística -transcripción, codificación o etiquetado- previstos y las herramientas que podrían emplearse en el proyecto.


Clases y atención a los estudiantes

Horario de clases:
Primer semestre, martes de 18:30 a 20, aula 304

Horario de atención a los estudiantes:
Lunes y miércoles de 13 a 14 (despacho B11-290.5, Facultad de Filosofía y Letras)
Viernes de 10.30 a 11.30 (despacho K2004, Facultad de Traducción e Interpretación)
Horas previamente concertadas.

Teléfonos:
93.581.19.12 (despacho B11-290.5) y 93.581.33.85 (despacho K2004).

Correo electrónico:
Joaquim.Llisterri@uab.cat

Únicamente se contestarán los correos enviados desde la dirección institucional de la UAB (@campus.uab.cat).


Los corpus orales (2007-2008)
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
http://liceu.uab.cat/~joaquim/language_resources/corpus_07/corpus_07_general.html
Last updated: 15/01/08

Creative Commons License
This work is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 3.0 License.