Los corpus orales


Los corpus de lengua hablada
El diseño de corpus de lengua hablada
Obtención de corpus de lengua hablada
Transcripción y etiquetado de corpus de lengua hablada
Codificación de los corpus de lengua oral
La explotación de los corpus de lengua oral

Los corpus de lengua hablada

El concepto de corpus. Corpus escritos y corpus orales. Especificidad de los corpus de lengua hablada: corpus orales (speech corpora) y corpus de lengua oral (spoken language corpora). Etapas en la constitución de los corpus de lengua hablada. Aplicaciones de los corpus de lengua hablada.

El diseño de corpus de lengua hablada

La selección de los materiales del corpus. La selección de los informantes.

Corpus de lengua oral

Criterios de diseño derivados del análisis del discurso y del análisis de la conversación. Criterios de diseño derivados de la sociolingüística. Criterios de diseño derivados de la dialectología.

Corpus orales

Criterios de diseño de corpus para el estudio fonético segmental y suprasegmental: corpus semi-espontáneos y corpus ad-hoc. Criterios de diseño de corpus para el desarrollo de las tecnologías del habla: corpus para la síntesis, para el reconocimiento y para los sistemas de diálogo; corpus para otros ámbitos de las tecnologías del habla.

Obtención de corpus de lengua hablada

El entorno de la grabación. Instrumentos para la grabación. Formatos de los ficheros de sonido. Los problemas de la grabación en entornos naturales. La grabación en un entorno de laboratorio.

Transcripción y etiquetado de los corpus de lengua hablada

La transcripción ortográfica de la lengua oral

Problemas de la representación ortográfica del habla espontánea: formas no normativas, variantes geográficas, números, siglas, acrónimos y abreviaturas, interjecciones y formas semi-léxicas, disfluencias, signos de puntuación. El concepto de transcripción ortográfica "enriquecida”.

Transcripción fonética de los corpus orales

Transcripción fonética segmental

Sistemas de representación fonética segmental: AFI (Alfabeto Fonético Internacional), SAMPA (SAM-Phonetic Alphabet) y WordlBet. Las adaptaciones al español: SAMPA-Spanish, SALA (SpeechDat across Latin America) y MexBet.

Transcripción de los elementos suprasegmentales

Sistemas de representación de los elementos suprasegmentales: AFI (Alfabeto Fonético Internacional), SAMPROSA (SAM Prosodic Alphabet), INTSINT (International System for Intionation Transcription) y ToBI (Tones and Break Indices). La representación de los elementos suprasegmentales del español.

El etiquetado de los corpus orales

Niveles de etiquetado en los corpus orales

Etiquetado fonético segmental, fonológico segmental, fonético suprasegmental, fonológico suprasegmental. La relación entre los niveles de etiquetado. La alineación temporal.

Herramientas para el etiquetado de corpus orales

Herramientas de etiquetado de dominio público y multiplataforma: Praat y WaveSurfer.

Codificación de los corpus de lengua oral

El concepto de codificación

Los lenguajes de marcación: separación entre el texto y las marcas de codificación. La TEI (Text Encoding Initiative) como estándar de codificación.

La codificación del discurso oral

Elementos codificados en los corpus de lengua oral: divisiones, enunciados, pausas, elementos vocalizados semi-léxicos y no léxicos, elementos no vocales, eventos, texto escrito, cambios, identidad de los hablantes, turnos de palabra, fenómenos propios de la lengua hablada. - elisiones y fragmentos de palabras, disfluencias y autocorrecciones -, fragmentos no inteligibles. La codificación del discurso oral en español: la propuesta para el CREA (Corpus de Referencia del Español Actual).

La explotación de los corpus de lengua hablada

Formatos de almacenamiento del corpus. Procedimientos de consulta. La documentación del corpus.

La explotación de corpus de lengua oral

Herramientas para el análisis textual. Frecuencia de aparición de palabras o de marcas. Concordancias. Colocaciones. Uso de corpus de lengua oral en estudios lingüísticos.

Explotación de corpus orales

Herramientas para el análisis acústico de dominio público y multiplataforma: Praat y WaveSurfer. Uso de corpus orales en los estudios fonéticos y en el desarrollo de aplicaciones en el campo de las tecnologías del habla.

Algunas referencias bibliográficas relacionadas con el temario del curso

BECKMAN, M.E.- HIRSCHBERG, J.- SHATTUCK-HUFNAGEL, S. “The original ToBI system and the evolution of the ToBI framework”, in JUN, S.-A. (Ed.) Prosodic models and transcription: Towards prosodic typology. Oxford: Oxford University Press.
http://www.ling.ohio-state.edu/~tobi/JunBook/BeckHirschShattuckToBI.pdf

BIBER, D.- CONRAD, S.- REPPEN, R. (1998) Corpus Linguistics. Investigating Language Structure and Use. Cambridge: Cambridge University Press (Cambridge Approaches to Linguistics).

CAMPBELL, N. (2002) “Recording and storing of speech data”, in Proceedings of the International LREC Workshop on Resources and Tools in Field Linguistics. Las Palmas, 26-27 May 2002. pp. 6-1 - 6-3.

CAMPBELL, N. (2002) “Recording techniques for capturing natural everyday speech”, in LREC 2002. Proceedings of the Third International Conference on Language Resources and Evaluation. Las Palmas de Gran Canaria, 27 May - 2 June, 2002. European Language Resources Association.

COSI, P. (2002) “Metodologie e sistemi per l’annotazione linguistica”, Quaderni dell'Istituto di Fonetica e Dialettologia 4 .

DI CRISTO, A.- HIRST, D.- BOUDOURESQUES, N.- LOUIS, M. (2002) “Écrire l’intonation: le système INTSINT, fondements théoriques et illustrations”, Revue PArole 22-23-24: 175-212.

DRAXLER, C. (2000) “Speech databases”, in VAN EYNDE, F.- GIBBON, D. (Eds.) Lexicon Development for Speech and Language Processing. Dordrecht: Kluwer Academic Publishers (Text, Speech and Language Technology, 12). pp. 169-206.

DU BOIS, J.W.- SCHUETZE-COBURN, S.-CUMMING, S.- PAOLINO, D. (1993) “Outline of discourse transcription”, in EDWARDS, J.A.- LAMPERT, M.D. (Eds.) Talking Data: Transcription and Coding in Discourse Research. Hillsdale, N.J.: Lawrence Erlbaum Associates. pp. 45-90.

DYBKJAER, L.- BERMAN, S.- KIPP, M.- WAGENER, M.- PIRRELLI, V.- REITHINGER, N.- SORIA, C. (2001) Survey of Existing Tools, Standards and User Needs for Annotation of Natural Interaction and Multimodal Data. ISLE Natural Interactivity and Multimodality Working Group. D11.1. January 2001.
http://spokendialogue.dk/Publications/2001f/D11.1-14.2.2001-F.pdf

EDWARDS, J.A. (1993) “Principles and Contrasting Systems of Discourse Transcription”, in EDWARDS, J.A.- LAMPERT, M.D. (Eds) Talking Data: Transcription and Coding in Discourse Research. Hillsdale, N.J.: Lawrence Erlbaum Associates. pp. 3-32.

EDWARDS, J.A. (1995) “Principles and alternative systems in the transcription, coding and mark-up of spoken discourse”, in LEECH, G.- MYERS, G.- THOMAS, J. (Eds.) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 19-34.

GIBBON, D. - MOORE, R.- WINSKI, R. (Eds.) (1998) Spoken Language Systems and Corpus Design. Berlin: Mouton De Gruyter. (Handbook of Standards and Resources for Spoken Language Systems, Volume I).

HIERNONYMUS, J.L. (1997) Worldbet Phonetic Symbols for Multilanguage Speech Recognition and Synthesis. AT&T Bell Labs Technical Report.
http://www.ling.ohio-state.edu/~edwards/WorldBet/worldbet.pdf

HIRST, D.J. - DI CRISTO, A.- ESPESSER, R. (2000) “Levels of representation and levels of analysis for the description of intonation systems”, in HORNE, M. (Ed.) Prosody: Theory and Experiment. Studies presented to Gösta Bruce. Dordrecht: Kluwer Academic Publishers (Text, Speech and Language Technology, 14). pp. 51-88.
http://aune.lpl.univ-aix.fr/~hirst/articles/2000%20Hirst&al.pdf

INTERNATIONAL PHONETIC ASSOCIATION (1999) Handbook of the International Phonetic Association: A guide to the use of the International Phonetic Alphabet. Cambridge: Cambridge University Press.

LABOV, W. (1972) “The Isolation of Contextual Styles”, in Sociolinguistic Patterns. Oxford: Basil Blackwell, 1978. pp. 70-109. Trad. cast.: Modelos sociolingüísticos. Madrid: Cátedra, 1983.

LADEFOGED, P. (2003) Phonetic Data Analysis. An Introduction to Fieldword and Instrumental Techniques. Oxford: Blackwell Publishing.

LEECH, G.- WEISSER, M.- WILSON, A.- GRICE, M. (2000) “Survey and Guidelines for the Representation and Annotation of Dialogue”, in GIBBON, D.- MERTINS, I.- MOORE, R. (Eds) Handbook of Multimodal and Spoken Dialogue Systems Resources, Terminology and Product Evaluation. Dordrecht: Kluwer Academic Publishers (Kluwer International Series in Engineering and Computer Science, 565).
http://www.lancs.ac.uk/fass/projects/eagles/delivera/wp4final.htm

LÓPEZ MORALES, H. (1994) Métodos de investigación lingüística. Salamanca: Ediciones Colegio de España (Biblioteca Filológica).

LLISTERRI, J. (1991) Introducción a la fonética: el método experimental. Barcelona: Anthropos (Autores, Textos y Temas, Lingüística, 3).

LLISTERRI, J. (1996) Preliminary Recommendations on Spoken Texts. EAGLES Document EAG-TCWG-STP/P, May 1996.
http://www.ilc.cnr.it/EAGLES96/spokentx/spokentx.html

LLISTERRI, J. (1999) “Transcripción, etiquetado y codificación de corpus orales”, in GÓMEZ GUINOVART, J.- LORENZO SUÁREZ, A.- PÉREZ GUERRA, J.- ÁLVAREZ LUGRÍS, A. (Eds.) Panorama de la investigación en lingüística informática. RESLA, Revista Española de Lingüística Aplicada, Volumen monográfico. pp. 53-82.
http://liceu.uab.cat/~joaquim/publicacions/RESLA_99.pdf

McENERY, T.- WILSON, A. (1996) Corpus Linguistics. Edinburgh: Edinburgh University Press (Edinburgh Textbooks in Empirical Linguistics).

MENGEL, A. - DYBKJAER, L., GARRIDO, J.M. - HEID, U.- KLEIN, M. - PIRRELLI V. - POESIO, M. - QUAZZA, S. - SCHIFFRIN, A. - SORIA, C. (2000) MATE Dialogue Annotation Guidelines. MATE Deliverable D2.1. 8 January 2000.
http://www.ims.uni-stuttgart.de/projekte/mate/mdag/

MILROY, L. (1987) Observing and Analysing Natural Language. A Critical Account of Sociolinguistic Method. Oxford: Basil Blackwell (Language in Society 12).

MORENO FERNÁNDEZ, F. (1990) Metodología sociolingüística. Madrid: Gredos (Biblioteca Románica Hispánica, Estudios y Ensayos, 372).

MORENO FERNÁNDEZ, F. (1999) “La formación de corpus-corpora de lengua hablada”, in DE LAS CUEVAS, J.- FASLA, D. (Eds.) Contribuciones al estudio de la lingüística aplicada. Castellón: Asociación Española de Lingüística Aplicada. pp. 447-464.

PINO, M.- SÁNCHEZ, M. (1999) “El subcorpus oral del banco de datos CREA-CORDE (Real Academia Española): Procedimientos de transcripción y codificación”, Oralia 2: 83-138.

SPERBERG-McQUEEN, C.M. - BURNARD, L. (Eds.) (2002). TEI P4: Guidelines for Electronic Text Encoding and Interchange. Chapter 11: Transcriptions of Speech. Text Encoding Initiative Consortium. XML Version: Oxford, Providence, Charlottesville, Bergen.
http://www.tei-c.org/release/doc/tei-p4-doc/html/TS.html

TORRUELLA, J.- LLISTERRI, J. (1999) “Diseño de corpus textuales y orales”, in BLECUA, J.M.- CLAVERÍA, G.- SÁNCHEZ, C.- TORRUELLA, J. (Eds.) Filología e informática. Nuevas tecnologías en los estudios filológicos. Barcelona: Seminario de Filología e Informática, Departamento de Filología Española, Universidad Autónoma de Barcelona - Editorial Milenio. pp. 45-77.
http://liceu.uab.cat/~joaquim/publicacions/Torruella_Llisterri_99.pdf

WELLS, J.C.(2003) SAMPA Computer Readable Phonetic Alphabet. Department of Phonetics and Linguistics, University College London.
http://www.phon.ucl.ac.uk/home/sampa/home.htm

WRAY, A.- TROTT, K.- BLOOMER, A. (1998) Projects in Linguistics. A Practical Guide to Researching Language. London - New York: Arnold - Oxford University Press.


Los corpus orales - Programa y bibliografía básica
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
http://liceu.uab.cat/~joaquim/language_resources/UNAM_05/Prog_bibbas.html
Last updated: 21/01/05

Creative Commons License
This work is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 3.0 License.