Introducció als corpus escrits i orals (1996-1997)
Joan Torruella & Joaquim Llisterri


Els corpus orals
Joaquim Llisterri


1. Objetivos y utilidad de las bases de datos orales

1.1. Bases de datos y corpus

Necesidad de desarrollo de recursos lingüísticos en soporte informático. La noción de corpus. Los corpus y bases de datos actuales de lengua oral como resultado de la confluencia de tres tradiciones: la fonética experimental -corpus: conjunto controlado de realizaciones fonéticas- , las tecnologías del habla -bases de datos: conjunto de realizaciones fonéticas de un número elevado de hablantes orientadas a una aplicación- y la lingüística de corpus -conjunto amplio de datos reales de la lengua estudiada-. La convergencia en los métodos de análisis.

1.2. Objetivos y enfoques en el diseño de una base de datos oral

Corpus y bases de datos para el estudio de los inventarios fonéticos y fonológicos de la lenguas y de los universales lingüísticos, para la descripción fonética de la lengua, para el desarrollo de sistemas de síntesis y reconocimiento del habla y para el estudio lingüístico de la lengua oral.

1.3. Aplicaciones de los corpus y bases de datos orales

Descripción de la lengua oral: descripción del estándar oral, de las variedades geográficas, sociales y estilísticas, del uso de la lengua y del cambio lingüístico. Descripción fonética: descripción de la variabilidad contextual de las realizaciones alofónicas y de las variaciones inter e intralocutor en los elementos segmentales; descripción de los elementos suprasegmentales. Tecnologías del habla: entrenamiento y evaluación de sistemas de reconocimiento, diseño, entrenamiento y evaluación de sistemas de diálogo hombre-máquina, incluyendo la traducción automática de conversaciones telefónicas, obtención de conocimientos fonéticos y lingüísticos para la síntesis del habla. Desarrollo de recursos lingüísticos: diccionarios de pronunciación, diccionarios de lengua oral, enseñanza de la lengua asistida por ordenador.

Referencias generales sobre corpus y bases de datos orales

CARRÉ, R. (1991) “Los bancos de sonidos”, in VIDAL BENEYTO, J. ( Dir) Las industrias de la lengua. Trad. de M. Alvar et al. Salamanca / Madrid: Fundación Sánchez Ruipérez / Pirámide ( Biblioteca del Libro, 5 ). pp. 108-118

***CARRÉ, R. (1992) “Speech Databases” in AINSWORTH, W. (Ed) Advances in Speech, Hearing and Language Processing. Volume 2. London: Jai Press. pp. 199-216.

CASTAGNERI, G. (Ed) (1991) Proceedings of the Workshop on International Cooperation and Standardization of Speech Databases and Speech I/O Assessment Methods. Chiavari 26-28 September 1991 ( Italy ). Organized by CSELT in cooperation with CEC DGXIII, ESCA, ESPRIT PROJECT 2589 (SAM)

CHURCH, K.W.- MERCER, R.L. (1993) "Introduction to the special issue on Computational Linguistics using Large Corpora", Computational Linguistics 19,1: 1-24

***EAGLES Spoken Language Working Group (1995) EAGLES Handbook on Spoken Language Systems. Draft version. Chapters: “Corpus Design”, “Corpus Collection”, “Corpus Representation”, “Overview of Speech Corpora”.

JONES, K. - MARIANI, J. (Eds) (1992) Proceedings of the 1992 Workshop of the International Coordinating Committee on Speech Databasesand Speech I/O Systems Assessment. Monday, 12 October 1992. Banff Springs Hotel, Banff, Canada.

***LAMEL, L.- COLE, R. “Spoken Language Corpora”, in COLE, R.A.- MARIANI, J.- USZKOREIT, H.- ZAENEN, A.- ZUE, V. (Eds) Survey of the State of the Art in Human Language Technology.

***LLISTERRI, J. (en premsa) “Els corpus orals” in Actes dels col·loquis CLUB-1 i CLUB-2. Departament de Filologia Catalana, Universitat de Barcelona.

MOORE, R.K. (1991) “User Needs in Speech Research”, Proceedings of the Workshop on European Textual Corpora. Pisa, Italy, 1991.

POLS, L.C.W. (1987) “Speech technology and corpus linguistics” in MEIJS, W. (Ed) Corpus Linguistics and Beyond. Proceedings of the Seventh International Conference on English Language Research on Computerized Corpora. Amsterdam: Rodopi. pp. 285-294

POLS, L.C.W. (Ed) (1990) Speech Input / Output Assessment and Speech Databases, Special Issue, Speech Communication 9,4.

Proceedings of the ESCA Tutorial Day and Workshop on Speech Input/Output Assessment and Speech Databases. Noordwijkerhout, the Netherlands, 20-23 September 1989.

THOMPSON, H.S. (1989) “Linguistic corpora for the language industry: A European community public utility” in Proceedings of the ESCA Tutorial Day and Workshop on Speech Input/Output Assessment and Speech Databases. Noordwijkerhout, the Netherlands, 20-23 September 1989. pp. 5.12.1-5.12.4

2. El formato de las bases de datos orales

2.1. Adquisición de los datos

2.1.1. La grabación

Grabación de la señal sonora. Grabación en entorno natural en los corpus para el estudio de la lengua oral. Grabación en condiciones acústicas controladas en los corpus para la descripción fonética y las aplicaciones tecnológicas. El estándar de grabación de SAM (Multilingual Speech Input/Output Assessment Methodology and Standardization): SESAM (SAM Workstation) y EUROPEC (European Programme d’Enregistrement de Corpus)

Referencias

JONES, M. (1986) “Audio and Acoustical Aspects” in BRISTOW, G. (Ed) Electronic Speech Recognition. Techniques, Technology and Applications. London: Collins. pp. 256-276.

LLISTERRI, J. (1991) Introducción a la fonética: el método experimental. Barcelona: Anthropos ( Autores, Textos y Temas, Lingüística, 3 ). [cap. 5]

MORGAN, N., (1984) Talking Chips. IC Speech Synthesis. New York: McGraw-Hill Book Company. [cap.6]

SAM (1992) "Europec software V.4.1 User's Guide (SAM-ICP-045)" in SAM User Guide to ETR Tools. ESPRIT PROJECT 2589 ( SAM) Multilingual Speech Input/Output Assessment, Methodology and Standardisation. Ref, SAM-UCL-G007.

SAM (1992) Speech Acquisition and Annotation Protocols and Index of Mnemonics. Doc. no. SAM-UCL-018. Final version. 15 February 1992

TATHAM, M.A.A. (1984) “Recording and Displaying Speech” in CODE, C - BALL, M. (Eds) Experimental Clinical Phonetics. London: Croom Helm. pp. 4-20.

ZANTEN, E. van- DAMEN, L.W.M. - HOUTEN, E. van “Collecting data for a speech database”, in HEUVEN, V.J. van - POLS, L.C.W. (Eds) Analysis and synthesis of speech. Strategic research towards high quality text-to-speech generation. Berlin: Mouton de Gruyter (Speech Research Series

2.1.2. La selección de locutores

Caracterización de los locutores. Los locutores en los corpus para el estudio de la lengua oral. Criterios de selección de locutores en SAM (Multilingual Speech Input/Output Assessment Methodology and Standardization)

Referencias

BROWN, P.- FRASER, C. (1979) “Speech as a marker of situation” in SCHERER, K.R. - GILES, H. (Eds) (1979) Social Markers in Speech. Cambridge- Paris: Cambridge University Press - Editions de la Maisons des Sciences de l'Homme. pp. 33-62

GILES, H. (1979) “Ethnicity markers in speech”, in SCHERER, K.R. - GILES, H. (Eds) (1979) Social Markers in Speech. Cambridge- Paris: Cambridge University Press - Editions de la Maisons des Sciences de l'Homme. pp. 251-290

GILES, H.- SCHERER, K.R.- TAYLOR, D.M. (1979) “Speech markers in social interaction”, in SCHERER, K.R. - GILES, H. (Eds) (1979) Social Markers in Speech. Cambridge- Paris: Cambridge University Press - Editions de la Maisons des Sciences de l'Homme. pp. 343-382

HELFRICH, H. (1979) “Age markers in speech”, in SCHERER, K.R. - GILES, H. (Eds) (1979) Social Markers in Speech. Cambridge- Paris: Cambridge University Press - Editions de la Maisons des Sciences de l'Homme. pp. 63-108

LAVER, J.- TRUDGILL, P. (1979) “Phonetic and linguistic markers in speech”, in SCHERER, K.R. - GILES, H. (Eds) (1979) Social Markers in Speech. Cambridge- Paris: Cambridge University Press - Editions de la Maisons des Sciences de l'Homme. pp. 1-32; in LAVER, J. (1991) The Gift of Speech. Papers in the Analysis of Speech and Voice. Edinburgh: Edinburgh University Press. pp. 235-264

LLISTERRI, J. (1991) Introducción a la fonética: el método experimental. Barcelona: Anthropos ( Autores, Textos y Temas, Lingüística, 3 ). [cap. 4]

MILLAR, J.B.- HAWKINS, S.R. (1990) “Selecting representative speakers” Proceedings of the Tutorial and Research Workshop on Speaker Characterization in Speech Technology. Edinburgh, 26-28 June. Edinburgh: Center for Speech Technology Research.pp.161-166

ROBINSON, W.P. (1979) “Speech markers and social class”, in SCHERER, K.R. - GILES, H. (Eds) (1979) Social Markers in Speech. Cambridge- Paris: Cambridge University Press - Editions de la Maisons des Sciences de l'Homme. pp. 211-250.

SACHS, J.- LIEBERMAN, P.- ERIKSON, D. (1973) “Anatomical and cultural determinants of male and female speech” in R. SHUY - R. FASOLD (Eds) Language Attitudes: Current Trends and Prospects. Washington: Georgetown University Press.pp. 74-84.

SAM (1991) Speech Acquisition and Annotation Protocols and Index of Mnemonics. Document nº SAM-UCL-018. Second Draft, 20 february 1991.

SCHERER, K. R. (1979) “Personality markers in speech”, in SCHERER, K.R. - GILES, H. (Eds) (1979) Social Markers in Speech. Cambridge- Paris: Cambridge University Press - Editions de la Maisons des Sciences de l'Homme. pp. 147-210

SMITH, P.M. (1979) “Sex markers in speech”, in SCHERER, K.R. - GILES, H. (Eds) (1979) Social Markers in Speech. Cambridge- Paris: Cambridge University Press - Editions de la Maisons des Sciences de l'Homme. pp. 109-146.

2.2. Segmentación, etiquetado, alineación, anotación y gestión de la base de datos

Segmentación: establecimiento de fronteras entre las unidades fonéticas presentes en la señal sonora. Etiquetado (labelling): transcripción fonética u ortográfica de segmentos de la señal sonora. Niveles de etiquetado: físico, acústico-fonético, transcripción fonética estrecha, fonémico, prosódico. Alineación temporal (time alignment): establecimiento de la correspondencia entre la señal acústica y las unidades lingüísticas transcritas. Anotación (annotation): introducción de información lingüística o extralingüística. Documentación: información sobre el material lingüístico del corpus, la grabación, los informantes y la organización del material.

Los estándars y las herramientas SAM (Multilingual Speech Input/Output Assessment Methodology and Standardization): PTS (Progiciel de Traitement de Signal), SALA -etiquetado semiautomático; DKISALA (danés), ELABSEG (noruego), SAPHO (francés)-, ELSA (comparación entre el etiquetado manual y el automático), SAMTRA (verificación de la transcripción) RISE (gestión de la base de datos).

Referencias

AUTESSERRE, D.- PÉRENNOU, G.- ROSSI, M. (1989) “Methodology for the transcription and labeling of a speech corpus”, Journal of the International Phonetic Association 19,1: 2-15

BARRY, W.- DALSGAARD, P. (1993) “Speech Database Annotation. The importance of a Multi-Lingual Approach” in Eurospeech'93. 3rd European Conference on Speech Communication and Technology. Berlin, Germany, 21-23 September 1993. Vol. 1 pp. 13-22

BARRY, W.- FOURCIN, A.J. (1992) “Levels of Labelling”, Computer Speech and Language 6: 1-14

BLOMBERG, M.- CARLSON, R. (1993) “Labelling of speech given its text representation” in Eurospeech'93. 3rd European Conference on Speech Communication and Technology. Berlin, Germany, 21-23 September 1993. Vol. 3 pp. 1775-1778

CHAN, D.S.F.- FOURCIN, A.J. (1993) “Automatic annotation using multi-sensor data” in Eurospeech'93. 3rd European Conference on Speech Communication and Technology. Berlin, Germany, 21-23 September 1993. Vol. 1 pp. 187-190

DALSGAARD, P.- ANDERSEN, O.- BARRY, W. (1991) “Multi-lingual acoustic-phonetic features for a number of European languages” in Eurospeech 91. 2nd European Conference on Speech Communication and Technology. Genova, Italy, 24-26 September 1991. vol 2 pp. 685-688

DALSGAARD, P.- ANDERSEN, O.- BARRY, W.J. (1991) “The cross-language validity of acoustic-phonetic features in label alignment” in Actes du XIIème Congrès International des Sciences Phonétiques. 19-24 août 1991, Aix-en-Provence, France. 5 vols. Aix-en-Provence: Université de Provence, Service des Publications.

DE GINESTEL-MAILLAND, A.- DE CALMÈS, M.- PÉRENNOU, G. (1993) “Multi-Level Transcription of Speech Corpora from Orthographic Forms” in Eurospeech'93. 3rd European Conference on Speech Communication and Technology. Berlin, Germany, 21-23 September 1993. Vol. 2 pp. 1441-1444

ERP, A. van- HOUBEN, C.- BARRY, B.- GRICE, M.- BOË, L.J.- BRAUN, G.- COSI, P.- DYHR, N.- PÉRENNOU, G.- VIGOUROUX, N.- AUTESSERRE, D. (1987) “A unified approach to the labelling of speech: First multilingual results” in TUBACH, J.P.- MARIANI, J.J. (Eds) Eurospeech 89. European Conference on Speech Communication and Technology. Paris, September 1989. Edinburgh: CEP Consultants Ltd. vol 2 pp. 88-91

HUCKVALE, M.- HOWARD, I.S.- BARRY, W.J. (1989) “Automatic phonetic feature labelling of continuous speech” in TUBACH, J.P.- MARIANI, J.J. (Eds) Eurospeech 89. European Conference on Speech Communication and Technology. Paris, September 1989. Edinburgh: CEP Consultants Ltd. vol 2 pp. 565-568

KABRE, H.- PÉRENNOU, G.- VIGOUROUX, N. (1991) “Automatic labelling of speech signal into phonetic events” in Actes du XIIème Congrès International des Sciences Phonétiques. 19-24 août 1991, Aix-en-Provence, France. 5 vols. Aix-en-Provence: Université de Provence, Service des Publications.

MORENO, A.- ARMAS, P.- MARIÑO, J.B.- MASGRAU, E. (1989) “Automatic segmentation of Spanish speech into syllables” in TUBACH, J.P.- MARIANI, J.J. (Eds) Eurospeech 89. European Conference on Speech Communication and Technology. Paris, September 1989. Edinburgh: CEP Consultants Ltd. vol 2 pp. 75-78

ROACH, P.- ROACH, H.- DEW, A.- ROWLANDS, P. (1990) “Phonetic analysis and the automatic segmentation and labeling of speech sounds”, Journal of the International Phonetic Association 20,1: 15-21

SAM (1992) User Guide to ETR Tools. ESPRIT PROJECT 2589 ( SAM) Multilingual Speech Input/Output Assessment, Methodology and Standardisation. Ref, SAM-UCL-G007.

TILLMANN, H.G.- POMPINO-MARSCHALL, B. (1993) “Theoretical Principles Concerning Segmentation, Labelling Strategies and Levels of Categorical Annotation for Spoken Language Database Systems” in Eurospeech'93. 3rd European Conference on Speech Communication and Technology. Berlin, Germany, 21-23 September 1993. Vol. 3 pp. 1691-1694

2.3. La transcripción fonética

2.3.1. Niveles de transcripción

Nivel I: forma ortográfica; Nivel II: representación fonémica -transcripción ancha- correspondiente a la forma canónica de las palabras aisladas (citation form); Nivel III: transcripción fonética - transcripción estrecha- correspondiente a la realización fonética del enunciado.

Referencias

TILLMANN, H.G.- POMPINO-MARSCHALL, B. (1993) “Theoretical Principles Concerning Segmentation, Labelling Strategies and Levels of Categorical Annotation for Spoken Language Database Systems” in Eurospeech'93. 3rd European Conference on Speech Communication and Technology. Berlin, Germany, 21-23 September 1993. Vol. 3 pp. 1691-1694

2.3.2. La codificación de los símbolos de transcripción

La codificación del AFI (Alfabeto Fonético Internacional): a cada símbolo y diacrítico del AFI se le asigna un número (IPA number) y un nombre (IPA name) que lo identifica y que se utiliza en el intercambio electrónico. La codificación en ASCII (American Standard Code for Information Interchange) de los símbolos de transcripción: permite la existencia de alfabetos fonéticos -machine readable character sets- que utilizan los caracteres actualmente codificados en ASCII.

Referencias

ESLING, J. (1990) “Computer Coding of the IPA: Supplementary Report”, Journal of the International Phonetic Association 20,1: 22-26

ESLING, J.H. (1988) “Computer coding of IPA symbols and detailed phonetic representations of computer databases”, Journal of the International Phonetic Association 18,2: 99-106

IPA (1989) “The IPA 1989 Kiel Convention Workgroup 9 report: Computer Coding of IPA symbols and Computer Representation of Individual Languages”, Journal of the International Phonetic Association 19,2: 81-92

PARKINSON, S.- BLADON, A. (1987) “Microcomputer-assisted phonetics teaching and phonetics word-processing: A survey”, Journal of the International Phonetic Association 17,2: 83-93

WELLS, J.C. (1987) “Computer Coded Phonetic Transcription” ,Journal of the International Phonetic Association 17,2: 94-114.

2.3.2. Alfabetos fonéticos

2.3.2.1. La transcripción de los elementos segmentales

2.3.2.1.1. PHONASCII
Desarrollado en el marco del proyecto CHILDES (Child Language Data Exchange System), consta de un alfabeto para la transcripción fonémica (UNIBET) y de un alfabeto para la transcripción fonética, incluyendo la de los elementos suprasegmentales.

Referencias

ALLEN, G. (1981) “PHONASCII” in MacWHINNEY, B. The Childes Project: Tools for Analyzing Talk. Hillsdale, N.J.: Lawrence Erlbaum. pp. 71-119

ALLEN, G.D. (1988) “The PHONASCII System”, Journal of the International Phonetic Association 18,1: 9-25.

2.3.2.1.2. SAMPA (SAM Phonetic Alphabet)
Sistema de transcripción desarrollado en el marco del proyecto SAM (Multilingual Speech Input/Output Assessment Methodology and Standardization) en el que se asocian códigos ASCII a los símbolos del AFI. La adaptación de SAMPA al español.

Referencias

LLISTERRI, J.- MARIÑO, J.B. (1993) Spanish adaptation of SAMPA and automatic phonetic transcription. SAM-A/UPC/001/V1 20th April 1993

SAM (1992) Speech Acquisition and Annotation Protocols and Index of Mnemonics. Doc. no. SAM-UCL-018. Final version. 15 February 1992

SAM (1992) “Speech acquisition and Annotation Protocols and Index of Mnemonics (SAM-UCL-018)- Section IV: SAMPA” in SAM User Guide to ETR Tools. ESPRIT PROJECT 2589 ( SAM) Multilingual Speech Input/Output Assessment, Methodology and Standardisation. Ref, SAM-UCL-G007.

WELLS, J.- BARRY, W.- GRICE, M.- FOURCIN, A.- GIBBON, D. (1992) Standard Computer-Compatible Transcription. SAM Stage Report Sen.3 SAM UCL-037, 28 February 1992. In SAM (1992) ESPRIT PROJECT 2589 (SAM) Multilingual Speech Input/Output Assessment,Methodology and Standardisation.Final Report. Year Three: 1.III.91-28.II.1992. London: University College London.

WELLS, J.C. (1989) “Computer-coded phonemic notation of individual languages of the European Community”, Journal of the International Phonetic Association 19,1: 31-54

WELLS, J.C. (1993) “An update on SAMPA”, COCOSDA Meeting, Berlin, September 1993.

WELLS, J.C. SAMPA, Computer Readable Phonetic Alphabet. Available at http://www.phon.ucl.ac.uk/home/sampa/home.html

2.3.2.2. La transcripción de los elementos suprasegmentales

Sistemas desarrollados en relación con los trabajos de análisis del discurso y de la conversación. Sistemas de codificación simbólica de los elementos prosódicos.

Referencias generales:

LLISTERRI, J. (1994) Prosody Encoding Survey. WP 1 Specifications and Standards. T1.5. Markup Specifications. Deliverable 1.5.3. Final version, 15 September 1994. LRE project 62-050 MULTEXT.
2.3.2.1.1. TOBI (Tone and Break Index)
Sistema de simbolización de la entonación basado en un modelo fonológico. Permite alinear un conjunto de símbolos prosódicos con la señal sonora y con la transcripción ortográfica en un sistema de niveles. Los niveles contemplados son: (1) nivel ortográfico (2) nivel del break-index , (3) nivel tonal y (4) fenómenos varios.

Referencias

SILVERMAN, K.- BECKMAN, M.- PITRELLI, J.- OSTENDORF, M.- WIGHTMAN, C.- PRICE, P.- PIERREHUMBERT, J.- HIRSCHBERG, J. (1992) “TOBI: A standard for labeling English prosody”, Proceedings of the Second International Conference on Spoken Language Processing, ICSLP-92. Banff, October 1992. pp. 867-870.
2.3.2.1.2. PROSPA
Desarrollado para el análisis del discurso y de la conversación.

Referencias

SELTING, M. (1987) “Descriptive categories for the auditive analysis of intonation in conversation”, Journal of Pragmatics 11: 777-791

SELTING, M. (1988) “The role of intonation in the organization of repair and problem handling sequences in conversation”, Journal of Pragmatics 12: 293-322.

2.3.2.1.3. SAMSINT (SAM System for Intonation Transcription)
Basado en INTSINT es un sistema adaptado a la transcripción de contornos melódicos incluidos en unidades melódicas.

Referencias

WELLS, J.- BARRY, W.- GRICE, M.- FOURCIN, A.- GIBBON, D. (1992) Standard Computer-Compatible Transcription. SAM Stage Report Sen.3 SAM UCL-037, 28 February 1992. In SAM (1992) ESPRIT PROJECT 2589 (SAM) Multilingual Speech Input/Output Assessment, Methodology and Standardisation. Final Report. Year Three: 1.III.91-28.II.1992. Ref. SAM-UCL-G004. London: University College London.
2.3.2.1.4. SAMPROSA
Sistema descriptivo basado en un modelo fonológico consistente en un inventario de símbolos y en su combinatorioa.

Referencias

GIBBON, D. (1989) Survey of Prosodic Labelling for EC Languages. SAM-UBI-1/90, 12 February 1989; Report e.6, in ESPRIT 2589 (SAM) Interim Report, Year 1. Ref. SAM-UCL G002. London: University College London, February 1990.

GIBBON, D.- BLEICHING, D. (1993) EAGLES Working Group 5: Spoken Language. Interim Report. September 1993.

WELLS, J.- BARRY, W.- GRICE, M.- FOURCIN, A.- GIBBON, D. (1992) Standard Computer-Compatible Transcription. SAM Stage Report Sen.3 SAM UCL-037, 28 February 1992. In SAM (1992) ESPRIT PROJECT 2589 (SAM) Multilingual Speech Input/Output Assessment, Methodology and Standardisation. Final Report. Year Three: 1.III.91-28.II.1992. Ref. SAM-UCL-G004. London: University College London.

2.3.2.1.5. INTSINT (International Transcription System for Intonation)
El sistema se basa en un procedimiento de estilización de contornos de frecuencia fundamental basado en la interpolación entre puntos de inflexión.

Referencias

HIRST, D.J. (1991) “Intonation models: Towards a third generation” in Actes du XIIème Congrès International des Sciences Phonétiques. 19-24 août 1991, Aix-en-Provence, France. Aix-en-Provence: Université de Provence, Service des Publications. Vol. 1 pp. 305-310

HIRST, D.J. (1994) “The symbolic coding of fundamental frequency curves: from acoustics to phonology”, in FUJISAKI, H. (Ed) Proceedings of International Symposium on Prosody, Satellite Workshop of ICSLP 94, Yokohama, September 1994.

HIRST, D.J. - DI CRISTO, A. (forthcoming) “A survey of intonation systems” in HIRST, D. - DI CRISTO, A. (Eds.) Intonation Systems. A Survey of Twenty Languages. Cambridge: Cambridge University Press.

HIRST, D.J. - DI CRISTO, A.- LE BESNERAIS, M.- NAJIM, Z.- NICOLAS, P.- ROMÉAS, P. (1993) “Multilingual modelling of intonation patterns”, in HOUSE, D.- TOUATI, P. (Eds.) Proceedings of an ESCA Workshop on Prosody. September 27-29, 1993, Lund, Sweden. Lund University Department of Linguistics and Phonetics, Working Papers 41. pp. 204-207

HIRST, D.J. - ESPESSER, R. (1993) “Automatic modelling of fundamental frequency using a quadratic spline function”, Travaux de l'Institut de Phonétique d'Aix 15: 71-85

HIRST, D.J. - IDE, N.- VÉRONIS, J. (1994) “Coding fundamental frequency patterns for multi-lingual synthesis with INTSINT in the MULTEXT project”, Proceedings of the ESCA/IEEE Workshop on Speech Synthesis, New York, September 1994.

HIRST, D.J.- NICOLAS, P.- ESPESSER, R. (1991) “Coding the Fo of a continuos text in French: An experimental approach” in Actes du XIIème Congrès International des Sciences Phonétiques. 19-24 août 1991, Aix-en-Provence, France. Aix-en-Provence: Université de Provence, Service des Publications. Vol. 5 pp. 234-237

WELLS, J.- BARRY, W.- GRICE, M.- FOURCIN, A.- GIBBON, D. (1992) Standard Computer-Compatible Transcription. SAM Stage Report Sen.3 SAM UCL-037, 28 February 1992. In SAM (1992) ESPRIT PROJECT 2589 (SAM) Multilingual Speech Input/Output Assessment, Methodology and Standardisation. Final Report. Year Three: 1.III.91-28.II.1992. Ref. SAM-UCL-G004. London: University College London.

3. Tipología de los corpus y bases de datos orales

Inventarios de recursos

ARRARTE, G.- LLISTERRI, J. (1994) Informe sobre recursos lingüísticos para el español (I): Corpus escritos y orales disponibles y en desarrollo en España. Madrid: Instituto Cervantes.

BADIA, T.- CABRÉ, M.T.- LLISTERRI, J.- DE YZAGUIRRE, Ll. (1994) Recursos en llengua catalana: estat de la qüestió. Jornada de Compatibilitat i accessibilitat dels corpus de dades en llengua catalana. Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra.

EDWARDS, J.A. (1993) “Survey of Electronic Corpora and Related Resources for Language Researchers”, in EDWARDS, J.A.- LAMPERT, M.D. (Eds) Talking Data: Transcription and Coding in Discourse Research. Hillsdale, N.J.: Lawrence Erlbaum Associates. pp. 263-310

FERNÁNDEZ, A.- LLISTERRI, J. (1995) Informe sobre recursos lingüísticos para el español (II): Corpus escritos y orales disponibles y en desarrollo en España. Madrid: Instituto Cervantes.

LAMEL, L.F.(1992) “Report on Speech Corpora Development in the U.S.”, NESCA - The ESCA Newsletter 8: 7-10

"Spoken Japanese Corpora", NESCA - The European Speech Communication Association Newsletter 13 (1994): 11-15

TAYLOR, L.- LEECH, G.- FLIGELSTONE, S. (1991) “A survey of English machine-readable texts”, in JOHANSSON, S.- STENSTRÖM, A. (Eds) English Computer Corpora. Selected Papers and Research Guide. Berlin: Mouton de Gruyter. pp. 319-354.

3.1. Inventarios fonéticos y fonológicos

Contienen descripciones de sistemas fonológicos ordenadas en una base de datos. Pueden incluir o no la señal acústica. Ejemplos: Kay Phonetic Database, Oxford Acoustic Database, SPA (Stanford Phonological Archive), UPSID (University of California Los Angeles- Phonological Segment Inventory Database)

Referencias

CROTHERS, J. (1978) “Typology and Universals of Vowel Systems” in J. H. GREENBERG-FERGUSON, C.A.- MORAVCSIK, E. A. (Eds.) Universals of Human Language . Volume 2: Phonology. Stanford: Stanford University Press. pp. 93-152.

MADDIESON, I. (1984) Patterns of Sounds. Cambridge: Cambridge University Press.

MADDIESON, I. (1986) “The Size and Structure of Phonological Inventories: Analysis of UPSID” in OHALA, J.J.- JAEGER, J.J. (Eds.) Experimental Phonology. New York: Academic Press. pp. 105-124.

MADDIESON, I. (1991) “Investigating linguistic universals”, UCLA Working Papers in Phonetics 78 : 26-37

MADDIESON, I. (1991) “Testing the universality of phonological generalizations with a phonetically specified segment database: results and limitations” UCLA Working Papers in Phonetics 78 : 11-25

MADDIESON, I.- PRECODA, K. (1990) “Updating UPSID”, UCLA Working Papers in Phonetics 74: 104-111

PICKERING, J.B.- ROSNER, B. S (1993) The Oxford Acoustic Phonetic Database on Compact Disk. Oxford: Oxford University Press (2 CD).

3.2 Bases de datos para la descripción fonética de la lengua

3.2.1. Corpus para la descripción fonética comparada

Diseñados para llevar a cabo comparaciones fonéticas entre lenguas utilizando materiales equivalentes. Ejemplos: IRIS (Inmigrant Voices in Sweden. Phonetic Models)

Referencias

ENGSTRAND, O.- NORDSTRAND, L. (1985) “A digital data base for cross-language phonetic research”, RUUL, Reports from the Uppsala University Department of Linguistics 12: 55-63

ENGSTRAND, O. (1987) “The IRIS speech data base - a status report” in ENGSTRAND, O. (Ed) Papers from the Swedish Phonetics Conference Held in Uppsala October 17-18, 1986 ( RUUL, Reports from the Uppsala University Department of Linguistics, 17) : 121-126

3.2.2. Corpus para la descripción fonética de la lengua y para aplicaciones tecnológicas

Diseñados para cubrir ambos objetivos. Ejemplos: ALBAYZÍN, BDSONS (Base de données des sons du français), PHONDAT.

Referencias

CASACUBERTA, F.- GARCÍA, R.- LLISTERRI, J.- NADEU, C.- PARDO, J. M.- RUBIO, A. (1992)“ "Desarrollo de corpus para investigación en tecnologías del habla (Albayzin)”, Procesamiento del Lenguaje Natural, Boletín 12: 35-42

MORENO, A.- POCH, D.- BONAFONTE, A.- LLEIDA, E.- LLISTERRI, J.- MARIÑO, J.B.- NADEU, C. (1993) “ALBAYZIN Speech Database: Design of the Phonetic Corpus” in Eurospeech'93. 3rd European Conference on Speech Communication and Technology. Berlin, Germany, 21-23 September 1993. Vol. 1 pp. 175-178

BD. SONS - Base de données des sons du français ( CD-ROM). Paris: Greco, Mai 1987 ( 7 CD-ROMs)

CARRÉ, R.- DESCOUT, J.- MARIANI, J.- ESKÉNAZI, M.- ROSSI, M. (1984) “The French language database. Defining, planning and recording a large database”, IEEE International Conference on Acoustics, Speech and Signal Processing, San Diego. Vol 3. pp. 42-10.1 - 42.10-4.

KOHLER, K. (1991) “Phonetic data bases for German” in Actes du XIIème Congrès International des Sciences Phonétiques. 19-24 août 1991, Aix-en-Provence, France. 5 vols. Aix-en-Provence: Université de Provence, Service des Publications. Vol. 2 pp. 466-469

“PHONDAT- Speech Data Base for German”, NESCA, The ESCA Newsletter 8 (1992): 11.

3.3. Bases de datos para aplicaciones a las tecnologías del habla

Objetivos: entrenamiento de sistemas de reconocimiento de habla; evaluación de sistemas de reconocimiento de habla; diseño y entrenamiento de sistemas de diálogo; obtención de datos para la síntesis del habla.

3.3.1. Corpus para aplicaciones tecnológicas generales

3.3.1.1. Corpus unilingües

Ejemplos: BREF (A Database of Read Text in French), RM1 - RM2 (DARPA Resource Management Continuous Speech Corpus) TIMIT (DARPA Acoustic Phonetic Continuous Speech Corpus), WSJ-CSR (Wall Street Journal Continuous Speech Recognition Corpus)

Referencias

BERNSTEIN, J.- DANIELSON, D. (1992) “Spontaneous speech collection for the CSR Corpus”, Proceedings of the Fifth DARPA Workshop on Speech and Natural Language.

FISHER, W. M.- DODDINGTON, G. R.- GOUDIE-MARSHALL, K. M. (1986) “The DARPA Speech Recognition Research Database: Specifications and Status”, Proceedings of the DARPA Speech Recognition Workshop, 1986.

GAROFOLO, J. S. - PALLET, D. S. (1989) “Use of CD-ROM for speech database storage and exchange” in TUBACH, J.P.- MARIANI, J.J. (Eds.) Eurospeech 89. European Conference on Speech Communication and Technology. Paris- September 1989. Edinburgh: CEP Consultants Ltd. pp. 309-312

GAUVAIN, J.-L.- LAMEL, L. F.- ESKÉNAZI, M. (1990) “Design Considerations and Text Selection for BREF, a large French read-speech corpus”, Proceedings of the International Conference on Spoken Language Processing.

KEATING, P.A.- BYRD, D.- FLEMMING, E.- TOKADA, Y. (1994) "Phonetic analysis of word and segments variation using TIMIT corpus of American English", Speech Communication 14,2 (en prensa)

LAMEL, L. F.- GAUVAIN, J.-L.-ESKENAZI, M. (1991) “BREF, a Large Vocabulary Spoken Corpus for French”, in Eurospeech 91. 2nd European Conference on Speech Communication and Technology. Genova, Italy, 24-26 September 1991. vol 2. pp. 505-508

LAMEL, L. F.- KASSEL, R. H.- SENEFF, S. (1986) “Speech database development: Design and analysis of the acoustic-phonetic corpus”, Proceedings of the DARPA Speech Recognition Workshop, 1986.

LEUNG, H. C.- ZUE, V. (1984) “A procedure for automatic alignment of phonetic transcriptions with continuous speech”, Proceedings ICASSP 84. pp. 2.7.1-2.7.4

PAUL, D. B.- BAKER, J. M. (1992) “The design for the Wall Street Journal - based CRS Corpus”, Proceedings of the Fifth DARPA Workshop on Speech and Natural Language.

PHILLIPS, J.- GLASS, J.- POLIFRONI, J.- ZUE, V. W. (1992) “Collection and analyses of WSJ-CRS Data at MIT”, Proceedings of the Fifth DARPA Workshop on Speech and Natural Language.

PRICE, P.- FISHER, W. M.- BASTION, J.- PALLET, D. S. (1988) “The DARPA 1000-word Resource Management Database for Continuous Speech Recognition”, Proceedings ICASSP, 1988. paper S.13.21 pp. 651-654.

ZUE, V.- SENEFF, S. (1988) “Transcription and alignment of the TIMIT database”, Proceedings of the Second Meeting on Advanced Man-Machine Interface through Spoken Language.

ZUE, V.- SENEFF, S.- GLASS, J. (1990) “Speech database development at MIT: TIMIT and beyond”, Speech Communication 9,4: 351-356

ZUE, V.- SENEFF, S.- GLASS, J.. (1989) “Speech database development: the TIMIT and BEYOND” in Proceedings of ESCA Workshop Speech Input / Output Assessment and Speech Databases. Noordwijkerhout, the Netherlands, 20-23 September 1989. pp. 2.1.1.-2.1.5

3.3.1.2. Corpus multilingües

Ejemplos: EUROM.1

Referencias

LLISTERRI, J.- AGUILAR, L.- BLECUA, B.- MACHUCA, M.J.- DE LA MOTA, C.- RÍOS, A.- MORENO, A.- SALAVEDRA, J. (1993) Spanish EUROM 1:Phonetic Contents. SAM-A/UPC/002/V1

MORENO, A. (1993) EUROM-1 Spanish Database. Report D6, SAM-A/UPC/003. September 1993

SAM (1992) User Guide to ETR Tools. ESPRIT PROJECT 2589 (SAM) Multilingual Speech Input/Output Assessment, Methodology and Standardization. Ref., SAM-UCL-G007.

SHERWOOD, T.- FULLER, H. (1992) Guide to EUROM.1 Speech Database. Doc. No. SAM-NPL-102, Final, 21 April 1992. ESPRIT PROJECT 2589 (SAM)SAM (1992) Speech Acquisition and Annotation Protocols and Index of Mnemonics. Doc. no. SAM-UCL-018. Final version. 15 February 1992

3.3.2. Corpus para aplicaciones tecnológicas específicas

Ejemplos: ATIS (Air Traffic Information Systems Corpora), VOYAGER.

Referencias

BLY, B.- PRICE, P.- TEPPER, S.- JACKSON, E.- ABRASH, V. (1990) “Designing the Human Machine Interface in the ATIS domain”, Proceedings of the Third DARPA Workshop on Speech and Natural Language.

HEMPHILL, C. T.- GODFREY, J.J.- DODDINGTON, G. R. (1990) “The ATIS Spoken Language Systems Pilot Corpus”, Proceedings of the DARPA Speech and Natural Language Workshop, June 1990.

PAO, C.- WILPON, J. (1992) “Spontaneous speech collection for the ATIS Domain with an Aural User Feedback Paradigm”, Proceedings of the Fifth DARPA Workshop on Speech and Natural Language.

POLIFRONI, J.- SENEFF, S.- ZUE, V. W.- HIRSCHMAN, L. (1990) “ATIS Data Collection at MIT”, DARPA SLS Note 8, Spoken Language Systems Group, MIT Laboratory for Computer Science.

WARD, W. (1991) " Evaluation of the CMU ATIS system", Proceedings of the Fourth DARPA Workshop on Speech and Natural Language.

ZUE, V. et al. (1991) “The MIT ATIS system: Preliminary development, spontaneous speech data collection and performance evaluation” in Eurospeech 91. 2nd European Conference on Speech Communication and Technology. Genova, Italy, 24-26 September 1991. vol 2. pp. 537-540

ZUE, V.- SENEFF, S.- GLASS, J. (1990) “Speech database development at MIT: TIMIT and beyond”, Speech Communication 9,4: 351-356

ZUE, V.- SENEFF, S.- GLASS, J.. (1989) “Speech database development: the TIMIT and beyond” in Proceedings of ESCA Workshop Speech Input / Output Assessment and Speech Databases. Noordwijkerhout, the Netherlands, 20-23 September 1989. pp. 2.1.1.-2.1.5

3.4. Los corpus de lengua oral

3.4.1. Diseño del corpus

El problema del muestreo: representatividad vs. cobertura. El problema de la clasificación: tipología de corpus y tipología de textos. Variedad geográfica, sociológica y estilística en los corpus de lengua oral.

Referencias

ALVAR EZQUERRA, M.- CORPAS PASTOR, G. (1994) “Criterios de diseño para la creación de córpora”, in ALVAR EZQUERRA, M.- VILLENA PONSODA, J.A. (Coord) Estudios para un corpus del español. Málaga: Universidad de Málaga. pp. 31-40

ATKINS, S.- CLEAR, J.- OSTLER, N. (1992) “Corpus design criteria”, Literary and Linguistic Computing 7,1: 1-16

BIBER, D. (1990) “Methodological issues regarding corpus-based analyses of linguistic variation”, Literary and Linguistic Computing 5,4: 257-269

BIBER, D. (1993) “Using Register-Diversified Corpora for General Language Studies” Computational Linguistics 19,2:219-242

BIBER, D. (1993) “Representativeness in corpus design”, Literary and Linguistic Computing, 8, 4: 243-257.

CLEAR, J. (1992) “Corpus sampling”, in LEITNER, G. (Ed) New Directions in English Language Corpora. Methodology, Results, Software Development. Berlin: Mouton de Gruyter. pp. 21-32

CROWDY, S. (1993) “Spoken Corpus Design and Transcription”, Literary and Linguistic Computing, 8,4: 259-265

OOSTDIJK, N. (1988) “A corpus linguistic approach to linguistic variation”, Literary and Linguistic Computing 3,1: 12-25

QUIRK, R. (1992) “On corpus principles and design”, in SVARTVIK, J. (Ed) Directions in Corpus Linguistics. Proceedings of Nobel Symposium 82, Stockholm 4-8 August 1991. Berlin: Mouton de Gruyter. pp. 457-470

3.4.2. Corpus de lengua oral

Ejemplos: BCN (British National Corpus), CSAE (Santa Barbara Corpus of Spoken American English), ICE (International Corpus of English), LLC (London-Lund Corpus of Spoken English), LOB (Lancaster-Oslo/Bergen Corpus), SEC (Lancaster/IBM Spoken English Corpus) y MARSEC (Machine Readable Spoken English Corpus), Corpus Oral de Referencia de la Lengua Española Contemporánea.

Referencias

CHAFE, W. L.- DU BOIS, J. W.- THOMPSON, S.A. (1991) “Towards a new corpus of spoken American English”, in AIJMER, K.- ALTENBERG, B. (Eds.) English Corpus Linguistics. Studies in Honour of Jan Svartvik. London: Longman. pp. 64-82

GREENBAUM, S.- SVARTVIK, J. (1990) “The London-Lund Corpus of Spoken English”, in SVARTVIK, J. (Ed) (1990) The London-Lund Corpus of Spoken English: Description and Research. Lund: Lund University Press. pp. 11-63

KNOWLES, G. (1995) “Converting a corpus into a relational database: SEC becomes MARSEC”, in LEECH, G.- MYERS, G.- THOMAS, J. (Eds) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 208-219

KNOWLES, G.- TAYLOR, L.- WILLIAMS, B. (1992) A Corpus of Formal British English Speech. London: Longman.

MARCOS MARÍN, F. (1991) “Corpus oral de referencia de la lengua española contemporánea” in MARCOS MARÍN, F. (1991) Archivos Digitales. Sociedad Estatal del V Centenario. Area de Industrias de la Lengua. 3.07.1991. p. 1-25

ROACH, P.- KNOWLES, G.- VARADI, T.- ARNFIELD, S. (1993) “MARSEC: A Machine-Readable Spoken English Corpus”, Journal of the International Phonetic Association 23,2: 47-58

SVARTVIK, J. (Ed) (1990) The London-Lund Corpus of Spoken English: Description and Research. Lund: Lund University Press.

SVARTVIK, J.- EEG-OLOFSSON, M.- FORSHEDEN, O.- ORESTRÖM, B.- THAVENIUS, C. (1982) Survey of Spoken English. Report on Research 1975-1981. Lund: Lund University Press.

SVARTVIK, J.- QUIRK, R. (Eds.) (1980) A Corpus of English Conversation. Lund: Lund University Press.

Explotación

KNOWLES, G. (1991) “Prosodic labelling: the problem of tone group boundaries”, in JOHANSSON, S.- STENSTRÖM, A. (Eds) English Computer Corpora. Selected Papers and Research Guide. Berlin: Mouton de Gruyter. pp. 149-163

KNOWLES, G.- ALDERSON, P.R. (1993) Working with Speech. The Computational Analysis of Formal British English Speech. London: Longman

KNOWLES, G.- LAWRENCE, L. (1987) “Automatic intonation assignment” in GARSIDE, R.- LEECH, G.- SAMPSON, G. (Eds.) (1987) The Computational Analysis of English: A Corpus-based Approach. London: Longman. pp. 139-148.

WICHMANN, A. (1991) “A study of up-arrows in the Lancaster/IBM Spoken English Corpus”, in JOHANSSON, S.- STENSTRÖM, A. (Eds) English Computer Corpora. Selected Papers and Research Guide. Berlin: Mouton de Gruyter. pp. 165-178

3.4.3. La codificación y transcripción de la lengua oral

Los corpus de lengua oral contienen una representación ortográfica de la lengua oral, enriquecida con una anotación simbólica de determinados elementos del discurso.

3.4.3.1. Fenómenos codificados

Convenciones desarrolladas en análisis del discurso y la conversación para la transcripción ortográfica de la lengua oral. Fenómenos codificados: (1) elementos segmentales; (2) sílabas; (3) palabras; (4) enunciados; (5) unidades entonativas; (6) melodía; (7) registro; (8) acento; (9) intensidad; (10) velocidad de locución; (11) pausas; (12) fenómenos vocales no léxicos; (13) turnos de palabra; (14) comentarios a la transcripción; (15) dificultades en la transcripción.

Referencias

Principios generales

COOK, G. (1995) “Theoretical issues: transcribing the untranscribable”, in LEECH, G.- MYERS, G.- THOMAS, J. (Eds) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 35-53

CHAFE, W. (1995) “Adequacy, user-friendliness, and practicality in transcribing",” in LEECH, G.- MYERS, G.- THOMAS, J. (Eds) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 54-61

EDWARDS, J.A. (1992) “Design principles in the transcription of spoken discourse” in SVARTVIK, J. (Ed) Directions in Corpus Linguistics. Proceedings of Nobel Symposium 82. Stockholm, 4-8 August, 1991. Berlin: Mouton de Gruyter. pp. 129-147

EDWARDS, J.A. (1993) “Principles and Contrasting Systems of Discourse Transcription”, in EDWARDS, J.A.- LAMPERT, M.D. (Eds) Talking Data: Transcription and Coding in Discourse Research. Hillsdale, N.J.: Lawrence Erlbaum Associates. pp. 3-32

EDWARDS, J.A. (1995) “Principles and alternative systems in the transcription, coding and mark-up of spoken discourse”, in LEECH, G.- MYERS, G.- THOMAS, J. (Eds) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 19-34

LINDSAY, J.- O'CONNELL, D. (1995) “How do transcribers deal with audio recordings of spoken discourse?”, Journal of Psycholinguistic Research 24,2: 101-116

LLISTERRI, J. (1994) “EAGLES Spoken Texts, Draft Working Paper” Draft Technical Report, Madrid, October 1994. EAG-CSG/IR-T7.1

OCHS, E. (1979) “Transcription as Theory” in OCHS, E.- SCHIEFFELIN, B.B. (1979) Developmental Pragmatics. New York: Academic Press. pp. 43-72

SINCLAIR, J. (1995) “From theory to practice”, in LEECH, G.- MYERS, G.- THOMAS, J. (Eds) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 99- 112

Criterios de transcripción de corpus específicos

CROWDY, S. (1994) “Spoken corpus transcription”, Literary & Linguistic Computing, 10: 25-28.

CROWDY, S. (1995) “The BNC spoken corpus”, in LEECH, G.- MYERS, G.- THOMAS, J. (Eds) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 224-234

DU BOIS, J.W. (1991) “Transcription design principles for spoken discourse research”, Pragmatics 1: 71-106

DU BOIS, J.W.- SCHUETZE-COBURN, S.-CUMMING, S.- PAOLINO, D. (1993) “Outline of discourse transcription”, in EDWARDS, J.A.- LAMPERT, M.D. (Eds) Talking Data: Transcription and Coding in Discourse Research. Hillsdale, N.J.: Lawrence Erlbaum Associates. pp. 45-90

GUMPERZ, J.J.- BERENZ, N. (1993) “Transcribing Conversational Exchanges”, in EDWARDS, J.A.- LAMPERT, M.D. (Eds) Talking Data: Transcription and Coding in Discourse Research. Hillsdale, N.J.: Lawrence Erlbaum Associates. pp. 91-122

NELSON, G. (1995) “The International Corpus of English: mark-up for spoken language”, in LEECH, G.- MYERS, G.- THOMAS, J. (Eds) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 220-223

PAYNE, J. (1995) “The COBUILD spoken corpus: transcription conventions”, in LEECH, G.- MYERS, G.- THOMAS, J. (Eds) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 203-207

PEPPÉ, S. (1995) “The Survey of English Usage and the London-Lund Corpus: computerizing manual prosodic transcription”, in LEECH, G.- MYERS, G.- THOMAS, J. (Eds) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp.187-202

3.4.3.2. Propuestas de estandarización de la transcripción

3.4.3.2.1. TEI (Text Encoding Initiative)
Sistema de codificación de la lengua oral para facilitar el intercambio electrónico de textos. Elementos codificados: (1) cabecera; (2) divisiones en el discurso; (3) elementos estructurales básicos; (4) información contextual; (5) información temporal; (6) caracterización del enunciado; (7) cambios en las características paralingüísticas del emunciado. Recomendaciones sobre el tratamiento de: solapamiento de hablantes, forma de la notación ortográfica, prosodia y fenómenos propios del habla espontánea.

Referencias

BURNARD, L. (1995) “The Text Encoding Initiative: an overview”, in LEECH, G.- MYERS, G.- THOMAS, J. (Eds) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 69-81

JOHANSSON, S. (1995) “The approach of the Text Encoding Initiative to the encoding of spoken discourse”, in LEECH, G.- MYERS, G.- THOMAS, J. (Eds) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 82-98

MARCOS MARÍN, F.- BALLESTER, A.- SANTAMARÍA, C. (1993) “Transcription Conventions used for the Corpus of Spoken Contemporary Spanish”, Literary and Linguistic Computing 8, 4: 283-292

SPERBERG-McQUEEN, C.M.- BURNARD, L. (Eds) (1994) Guidelines for Electronic Text Encoding and Interchange.TEI P3.Chapter 11: Transcriptions of Speech .Association for Computational Linguistics / Association for Computers and the Humanities / Association for Literary and Linguistic Computing: Chicago and Oxford.

3.4.3.2.2. NERC (Network of European Reference Corpora)
NERC (Network of European Reference Corpora) basa las propuestas de transcripción de la lengua oral en el sistema desarrollado por JP French, compatible con las normas de la TEI. Niveles de transcripción: Nivel I: representación ortográfica con signos de puntuación; Nivel II: representación ortográfica aumentada con información sobre cambios de turno y elementos no verbales; Nivel III: incluye fronteras entre unidades melódicas e indicación de las sílabas tónicas, junto con indicación del solapamiento entre hablantes; Nivel IV: incluye tonos en la sílaba y alineación entre la transcripción fonémica y la señal acústica.

Referencias

FRENCH, J.P. (1992) “Transcription proposals: multilevel system”, Working paper, University of Birmingham, October 1992. NERC-WP4-50

NERC (1994) NERC-1. Network of European Reference Corpora. Final Report. Pisa. ( "Spoken Language", "Phonetic/Phonemic and Prosodic Annotation")

VILLENA-PONSODA, J.A. (1992) “Representational Procedures and Schemes for Spanish oral Corpus of University of Malaga” Working paper, University of Malaga, December 1992. NERC-WP4-141; in ALVAR EZQUERRA, M.- VILLENA PONSODA, J.A. (Coord) (1994) Estudios para un corpus del español. Málaga: Universidad de Málaga (Anejo 7 de Analecta Malacitana, Revista de la Sección de Filología de la Facultad de Filosofía y Letras de Málaga)


Guió i bibliografia - Introducció als corpus escrits i orals (1996-1997)
Joaquim Llisterri, Universitat Autònoma de Barcelona
http://liceu.uab.cat/~joaquim/language_resources/corpus_96/guio_bibliografia.html
Last updated: 30/06/97

Creative Commons License
This work is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 3.0 License.