Los textos orales: constitución, transcripción y herramientas para su análisis


1. Textos orales y corpus de lengua oral

La noción de “texto oral”. El corpus como conjunto estructurado de textos. Corpus orales y corpus escritos.

2. Los corpus de lengua oral

Especificidad de los corpus de lengua oral: corpus orales (speech corpora) y corpus de lengua oral (spoken language corpora). Diseño de los corpus de lengua oral. Etapas en la constitución de los corpus de lengua oral: grabación; transcripción ortográfica; codificación; niveles de etiquetado –fonético, fonológico, prosódico, morfológico, sintáctico, semántico, pragmático–. Aplicaciones de los corpus de lengua oral.

3. Transcripción de los corpus de lengua oral

La transcripción ortográfica de la lengua oral. Problemas de la representación ortográfica del habla espontánea: formas no normativas, variantes geográficas, números, siglas, acrónimos y abreviaturas, interjecciones y formas semi-léxicas, disfluencias, signos de puntuación. El concepto de transcripción ortográfica "enriquecida".

4. Codificación de los corpus de lengua oral

El concepto de codificación. Los lenguajes de marcación: separación entre el texto y las marcas de codificación. La TEI (Text Encoding Initiative) como estándar de codificación. Elementos codificados en los corpus de lengua oral: divisiones, enunciados, pausas, elementos vocalizados semi-léxicos y no léxicos, elementos no vocales, eventos, texto escrito, cambios, identidad de los hablantes, turnos de palabra, fenómenos propios de la lengua hablada –elisiones y fragmentos de palabras, disfluencias y autocorrecciones–, fragmentos no inteligibles.

5. Herramientas para el análisis de corpus

Programas de análisis textual. Frecuencia de aparición de palabras. Concordancias. Colocaciones.

6. Corpus de lengua oral en español

Principales corpus de lengua oral en español. Características generales y aplicaciones.

Bibliografía esencial

Lingüística de corpus

Manuales

BIBER, D.- CONRAD, S.- REPPEN, R. (1998) Corpus Linguistics. Investigating Language Structure and Use. Cambridge: Cambridge University Press (Cambridge Approaches to Linguistics).

HABERT, B.- FABRE, C.- ISSAC, F. (1998) De l'écrit au numérique: constituer, normaliser et exploiter les corpus électroniques. Paris: InterEditions– Masson (Informatiques) (accompagné de CD-ROM).

HABERT, B.- NAZARENKO, A.- SALEM, A. (1997) Les linguistiques de corpus. Paris: Armand Colin (U Linguistique).

KENNEDY, G. (1998) An Introduction to Corpus Linguistics. London: Longman (Studies in Language and Linguistics).

McENERY, T.- WILSON, A. (1996) Corpus Linguistics. Edinburgh: Edinburgh University Press (Edinburgh Textbooks in Empirical Linguistics).
http://www.lancs.ac.uk/fss/courses/ling/corpus/

STUBBS, M. (1996) Text and Corpus Analysis. Computer Assisted Studies of Language and Culture. Oxford: Basil Blackwell (Language in Society).

Herramientas para el análisis de corpus

BARNBROOK, G. (1996) Language and Computers. A Practical Introduction to the Computer Analysis of Language. Edinburgh: Edinburgh University Press (Edinburgh Textbooks in Empirical Linguistics).

BUTLER, Ch. S. (1985), “Computerized Text Processing in Linguistics and Literary Research”, Linguistic Abstracts, 1-2:53-67.

BUTLER, C. S. (Ed.) (1992) Computers and Written Texts. London: Basil Blackwell.

HOCKEY, S. (2001) Electronic Texts in the Humanities. Principles and Practices. Oxford: Oxford University Press.

LEBART, L.- SALEM, A.- BERRY, L. (1998) Exploring Textual Data. Dordrecht– Boston– London: Kluwer Academic Publishers (Text, Speech and Language Technology, 4).

PÉREZ GUERRA, J. (1998) Análisis computarizado de textos. Una introducción a TACT. Prólogo de John Bradley. Vigo: Universidade de Vigo, Servicio de Publicación (Monografías da Universidade de Vigo, Humanidades e Ciencias Xurídico-Sociais, 13).

RUIZ UREÑA, R.J.- GARCÍA PIÑEIRO, V. (1996) “Cuatro programas para la gestión de conjuntos de texto en soporte informático: Lexa, MicroConcord, Tact y WordCruncher”, in LUQUE DURÁN, J. de D.- PAMIES BERTRÁN, A. (Eds.) Actas del Primer Simposio de Historiografía Lingüística. Granada, 1996. Granada: Método Ediciones. pp. 123-131.

SASSI, M. (1999) “Concordancias para filólogos: en pos de la simplicidad”, in BLECUA, J.M.- CLAVERÍA, G.- SÁNCHEZ, C.- TORRUELLA, J. (Eds.) Filología e informática. Nuevas tecnologías en los estudios filológicos. Barcelona: Seminario de Filología e Informática, Departamento de Filología Española, Universidad Autónoma de Barcelona– Editorial Milenio. pp. 165-182.

Corpus de lengua oral

Diseño y constitución

CROWDY, S. (1993) “Spoken Corpus Design and Transcription”, Literary and Linguistic Computing 8,4: 259-265.

MORENO FERNÁNDEZ, F. (1997) “La formación de corpus de lengua hablada”, in MORENO FERNÁNDEZ, F. (Ed.) Trabajos de sociolingüística hispánica. Alcalá de Henares: Universidad de Alcalá, Servicio de Publicaciones (Ensayos y Documentos, 27) pp. 93-114.

MORENO FERNÁNDEZ, F. (1999) “La formación de corpus-corpora de lengua hablada”, in DE LAS CUEVAS, J.- FASLA, D. (Eds.) Contribuciones al estudio de la lingüística aplicada. Castellón: Asociación Española de Lingüística Aplicada. pp. 447-464.

TORRUELLA, J.- LLISTERRI, J. (1999) “Diseño de corpus textuales y orales”, in BLECUA, J.M.- CLAVERÍA, G.- SÁNCHEZ, C.- TORRUELLA, J. (Eds.) Filología e informática. Nuevas tecnologías en los estudios filológicos. Barcelona: Seminario de Filología e Informática, Departamento de Filología Española, Universidad Autónoma de Barcelona– Editorial Milenio. pp. 45-77.

Transcripción y codificación

CROWDY, S. (1994) “Spoken corpus transcription”, Literary & Linguistic Computing 9,1: 25-28.

DU BOIS, J.W. (1991) “Transcription design principles for spoken discourse research”, Pragmatics 1: 71-106.

EDWARDS, J.A.- LAMPERT, M.D. (Eds) (1993) Talking Data: Transcription and Coding in Discourse Research. Hillsdale, N.J.: Lawrence Erlbaum Associates.

JOHANSSON, S. (1995) “The Encoding of Spoken Texts”, Computers and the Humanities 29,1: 149-158; in IDE, N.- VÉRONIS, J. (Eds.) (1995) The Text Encoding Initiative. Background and Context. Dordrecht: Kluwer Academic Publishers. pp. 149-158.

LEECH, G.- MYERS, G.- THOMAS, J. (Eds.) (1995) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman.

LLISTERRI, J. (1996) Preliminary Recommendations on Spoken Texts. EAGLES Document EAG-TCWG-STP/P, May 1996.
http://www.ilc.cnr.it/EAGLES96/spokentx/spokentx.html

LLISTERRI, J. (1999) “Transcripción, etiquetado y codificación de corpus orales”, in GÓMEZ GUINOVART, J.- LORENZO SUÁREZ, A.- PÉREZ GUERRA, J.- ÁLVAREZ LUGRÍS, A. (Eds.) Panorama de la investigación en lingüística informática. RESLA, Revista Española de Lingüística Aplicada, Volumen monográfico. pp. 53-82.

OCHS, E. (1979) “Transcription as Theory” in OCHS, E.- SCHIEFFELIN, B.B. (Eds.) (1979) Developmental Pragmatics. New York: Academic Press. pp. 43-72. PAYRATÓ, Ll. (1995) "Transcripción del discurso coloquial", in CORTÉS RODRÍGUEZ, L. (Ed.) El español coloquial. Actas del I Simposio sobre Análisis del Discurso Oral. Almería, 23-25 de noviembre de 1994. Almería: Universidad de Almería, Servicio de Publicaciones. pp. 43-70.

PINO MORENO, M.- SÁNCHEZ SÁNCHEZ, M. (1999) “El subcorpus oral del banco de datos CREA-CORDE (Real Academia Española): Procedimientos de transcripción y codificación”, Oralia 2: 83-138.

VILLENA PONSODA, J.A. (1994) “Pautas y procedimientos de representación del corpus oral de la Universidad de Málaga. Informe preliminar”, in ALVAR EZQUERRA, M.- VILLENA PONSODA, J.A. (Coord.) Estudios para un corpus del español. Málaga: Universidad de Málaga. pp. 73-102.

Corpus de lengua oral en español

ALVAR EZQUERRA, M.- VILLENA PONSODA, J.A. (Coord.) (1994) Estudios para un corpus del español. Málaga: Universidad de Málaga (Analecta Malacitana, Anejo 7).

AZORÍN FERNÁNDEZ, D.- MARTÍNEZ LINARES, M.A.- SANTAMARÍA PÉREZ, M.I. (1999) “Léxico y creación léxica en un corpus oral de lenguaje juvenil”, in FERNÁNDEZ GONZÁLEZ, J.- FERNÁNDEZ JUNCAL, C.- MARCOS SÁNCHEZ, M.– PRIETO DE LOS MOZOS, E.- SANTOS RÍO, L. (Eds.) Lingüística para el siglo XXI. III Congreso de Lingüística General (CLG3). Salamanca: Ediciones de la Universidad de Salamanca (Aquilafuente, 9). vol 1, pp. 217-228.

BRIZ, A. (Coord.) (1995) La conversación coloquial (Materiales para su estudio). València: Universitat de València, Facultad de Filología, Departamento de Filología Española (Lengua Española) (Cuadernos de FIlología, Anejo XVI).

ESGUEVA, M.- CANTARERO, M. (1981) El habla de la ciudad de Madrid. Materiales para su estudio. Madrid: CSIC.

HERNÁNDEZ SACRISTÁN, C.- FERNÁNDEZ PEÑA, L. (1992) Conversación infantil. Materiales para su estudio en niños desde los cinco a los nueve años. Valencia: Promolibro.

LOPE BLANCH, J.M. (1986) El estudio del español hablado culto. Historia de un proyecto. México: Universidad Nacional Autónoma de México (Publicaciones del Centro de Lingüística Hispánica, 22). Macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico (MC-NLCH). Preparado por José Antonio Samper Padilla, Clara Eugenia Hernández Cabrera y Magnolia Troya Déniz. Edición en CD-ROM. Las Palmas de Gran Canaria: Servicio de Publicaciones de la Universidad de Las Palmas de Gran Canaria, 1998.

MARTÍN ZORRAQUINO, M.A. (1991) “Estudio sociolingüístico del habla de Zaragoza: problemas y primeros resultados”, in Actas del Congreso de Lingüistas Aragoneses, Zaragoza, 1991. pp. 169-200.

MORENO FERNÁNDEZ, F. (1997) “Metodología del ‘Proyecto para el Estudio Sociolingüístico del Español de España y de América’”, in MORENO FERNÁNDEZ, F. (Ed.) Trabajos de sociolingüística hispánica. Alcalá de Henares: Universidad de Alcalá, Servicio de Publicaciones (Ensayos y Documentos, 27) pp. 137-167.

SAMPER PADILLA, J.A. (1995) “Macrocorpus de la norma lingüística culta de las principales ciudades de España y América”, Lingüística (Publicación de la Asociación de Lingüística y Filología de la América Latina) 7: 263-293.

VERA LUJÁN, A. (1998) “Los medios de comunicación como recurso lingüístico (proyecto de acopio y distribución de materiales lingüísticos. Instituto Cervantes, España)”, in La lengua española y los medios de comunicación. México: Siglo XXI Editores en coedición con la Secretaría de Educación Pública (México) y el Instituto Cervantes (España). Vol 2. pp. 1331-1338.



Los textos orales: constitución, transcripción y herramientas para su análisis
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
http://liceu.uab.cat/~joaquim/language_resources/Murcia_02/Murcia_02_Guion.html
Last updated: 04/03/02

Creative Commons License
This work is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 3.0 License.