Los corpus de lengua oral



Los corpus de lengua oral

Spoken language corpora.

Desarrollados en el marco de la lingüística de corpus.

Consisten esencialmente en la transcripción en ortografía convencional (transliteración) de una grabación a partir de la cual se lleva a cabo el tratamiento y el análisis del corpus: “texto hablado” (spoken text).

La transcripción ortográfica se enriquece con diversos aspectos que reflejan el proceso de producción del habla en función de los objetivos y aplicaciones del corpus.

El objetivo es disponer de una representación simbólica del uso oral espontáneo y natural de la lengua.

No se recoge la variación fonética.

En algún caso se añade información prosódica.

El acceso a la señal sonora se realiza únicamente en la fase de transcripción.

“A spoken language corpus is a corpus consisting of recordings of speech which are accessible in computer readable form, and which are transcribed orthographically, or into a recognised phonetic or phonemic notation.”

Sinclair, J. (1996). Preliminary recommendations on corpus typology. EAGLES Document EAG-TCWG-CTYP/P. May 1996. Consultado en http://www.ilc.cnr.it/EAGLES96/corpustyp/corpustyp.html
John Sinclair
John Sinclair (1933-2007)
(©Primoz Jacopin)

Analizado en tanto que “texto” con los métodos del análisis del discurso, el análisis de la conversación o la lingüística del texto.

Analizado en tanto que “muestra de lengua” en todos los niveles del análisis lingüístico: morfológico, léxico, sintáctico, semántico y pragmático.

Posibilidad de un análisis fonético –segmental y suprasegmental– o fonológico si se dispone de una transcripción fonética o fonológica.

Posibilidad de un análisis fonético acústico –segmental y suprasegmental– si se dispone de la grabación original realizada en condiciones acústicas adecuadas.

Principales características que diferencian los corpus de lengua oral de los corpus orales:

  Corpus de lengua oral
(spoken language corpora)
Lingüística de corpus
Corpus orales
(speech corpora)
Fonética
Tecnologías del habla
Materiales Habla espontánea
unelicited speech
Corpus controlado
elicited speech
Nivel de análisis Discurso, diálogo Enunciado
Obtención de los datos Entorno natural Entorno controlado
Transcripción Transcripción ortográfica enriquecida Transcripción fonética y ortográfica alineada con la señal sonora
Orientación Representación simbólica, categorial Señal sonora, representación temporal

Llisterri, J. (1996). Preliminary recommendations on spoken texts. EAGLES Documents EAG-TCWG-STP/P. May 1996. Consultado en http://www.ilc.cnr.it/EAGLES96/spokentx/spokentx.html

up arrow

Diseño de un corpus de lengua oral

Contenido del corpus

Tipología temática

Establecida en función de los contenidos temáticos del corpus.

Tipología textual

Gregory, M., y Carroll, S. (1978). Language and situation. Language varieties and their social contexts. London: Routledge & Kegan Paul.

Gregory, M., y Carroll, S. (1986). Lenguaje y situación. Variedades del lenguaje y sus contextos sociales. México, D.F.: Fondo de Cultura Económica. (Obra original publicada en 1978)

Establecida en función del tipo de texto oral recogido.

Tipología situacional

Establecida en función de la situaciones comunicativas en las que se recogen los datos.

Puede determinar el grado de formalidad del registro o estilo de habla.

La entrevista

Tipología en función de la procedencia

Puede incidir en el grado de formalidad del del registro o estilo de habla.

La grabación

Los informantes

Criterios para la selección de los informantes

Variables relativas a los informantes

up arrow

La recogida de los datos

Situaciones de grabación

up arrow

La transcripción

La transcripción de un corpus oral debería cumplir una serie de requisitos.

Payrató, L. (1995). Transcripción del discurso coloquial. En L. Cortés (Ed.), El español coloquial. Actas del I simposio sobre análisis del discurso oral. Almería, 23-25 de noviembre de 1994. (pp. 43-70). Almería: Servicio de Publicaciones de la Universidad de Almería.

Desde una perspectiva teórica, una transcripción debe reunir una serie de requisitos ideales:

Desde un punto de vista práctico, un sistema de transcripción debe poseer una serie de características que faciliten su uso:

up arrow

La transcripción ortográfica

Transcripción ortográfica de corpus de lengua oral

up arrow

Los niveles de anotación o etiquetado del corpus

La anotación o etiquetado

En los corpus de lengua oral se emplean, en ocasiones, criterios propios del análisis del discurso y de la conversación o criterios derivados de la etnografía de la comunicación y de la sociolingüísica interaccional.

Gumperz, J. J., y Berenz, N. (1993). Transcribing conversational exchanges. En J. A. Edwards, y M. D. Lampert (Eds.), Talking data: Transcription and coding in discourse research. (pp. 91-122). Hillsdale, NJ: Lawrence Erlbaum.

Edwards, J. A. (1995). Principles and alternative systems in the transcription, coding and mark-up of spoken discourse. En G. Leech, G. Myers, y J. Thomas (Eds.), Spoken English on computer: Transcription, markup and applications. (pp. 19-34). Harlow: Longman.

up arrow

La codificación del corpus

La codificación

Elementos transcritos y codificados en el estudio de la lengua oral

Llisterri, J. (1996). Preliminary recommendations on spoken texts. EAGLES Documents EAG-TCWG-STP/P. May 1996. Consultado en http://www.ilc.cnr.it/EAGLES96/spokentx/spokentx.html
Nivel de análisis Elementos transcritos, marcados o codificados
Nivel segmental Alargamiento, timbre, acento, reconstrucción de segmentos elididos.
Nivel silábico Fronteras silábicas, alargamiento silábico.
Nivel léxico Fronteras de palabras, palabras truncadas, formas no estándar, formas onomatopéyicas, formas deletreadas, acrónimos, abreviaturas, cambios entonativos en la palabra, acento léxico, pausas percibidas entre palabras o en el interior de una palabra.
Nivel sintáctico Fronteras entre enunciados, modalidad, interrupcionesen el enunciado con o sin presencia de pausas.
Nivel suprasegmental Unidades entonativas
  Fronteras entre unidades entonativas o entre unidades menores, unidades tonales incompletas o truncadas, reajustes (resets) tonales, junturas, índices de cohesión, contornos tonales terminales.
  Tono
  Cambios melódicos en el enunciado o en parte del enunciado, nivel tonal, rango tonal, registro, movimiento tonal en la palabra o en el enunciado.
  Acento
  Acento de palabra, acento de frase, acento tonal, niveles de acento, prominencia, énfasis, acento contrastivo, tensión, propiedades rítmicas.
  Intensidad
  Intensidad absoluta o relativa de partes del enunciado
  Velocidad de elocución
  Cambios en la velocidad de elocución, velocidad de elocución relativa o absoluta.
  Pausas
  Pausas silenciosas, pausas vocalizadas, duración absoluta o relativa de las pausas.
Nivel paralingüístico Vocalizaciones semi-léxicas, vocalizaciones no léxicas, cualidad de voz, otros elementos vocalizados (canto, gritos, etc.).
Nivel discursivo Turnos de palabra, tipo de transición entre turnos, superposición de turnos.
Nivel contextual Fenómenos no comunicativos no léxicos y no vocales, información kinésica.

Propuestas de estándares para la codificación

TEI (Text Encoding Initiative)

Utilización del lenguaje SGML (Standard Generalised Markup Language) y de sus extensiones posteriores como XML (Extensible Markup Language).

SGML, Standard Generalized Markup Language - XML, eXtensible Markup Language

Los estándares de la TEI (Text Encoding Initiative) definen los elementos que deben codificarse en las transcripciones de lengua oral.

TEI Consortium (Ed.). (2016). 8 Transcription of speech. [Version 3.0.0]. [Last updated on 29th March 2016]. En TEI P5: Guidelines for Electronic Text Encoding and Interchange. TEI Consortium. Consultado en http://www.tei-c.org/release/doc/tei-p5-doc/en/html/TS.html
Elemento codificado Marca de codificación en SGML Definición
Divisiones (division) <div> Unidades intermedias entre el texto y el enunciado que permiten delimitar partes diferenciadas en un texto.
Enunciado (utterance) <u> Segmento de habla comprendido entre dos pausas o delimitado por un cambio en el turno de palabra; puede incluir además información sobre la superposición (<overlap>) de turnos cuando interviene simultáneamente más de un hablante.
Pausa (pause) <pause> Interrupción de la fonación percibida entre dos enunciados o en el interior de los mismos; puede describirse en términos relativos o indicando su duración.
Vocal (vocal) <vocal> Elemento vocalizado semi-léxico o no léxico (p. ej. pausas llenas o toses).
Kinésico (kinesic) <kinesic> Cualquier fenómeno comunicativo no vocal (p. ej. gestos).
Acontecimiento (event) <event> Cualquier fenómeno identificado en la grabación no necesariamente vocalizado ni con valor comunicativo (p. ej. ruidos de fondo).
Texto escrito (writing) <writing> Texto escrito que se presenta al hablante durante su intervención.
Cambio (shift) <shift> Momento en el que se produce un cambio en alguno de los rasgos paralingüísticos –cualidad de voz, intensidad, rango tonal, ritmo y velocidad de elocución–; cada uno de los rasgos puede describirse mediante una lista de características.

La codificación propuesta por la TEI permite también recoger otros elementos:

TEI, Text Encoding Initiative

La propuesta del Grupo de trabajo sobre textos orales de EAGLES (Expert Advisory Group on Language Engineering Standards)

En el marco del proyecto EAGLES (Expert Advisory Group on Language Engineering Standards) se sugiere que la codificación de un texto oral debe contener, al menos, información sobre una serie de aspectos básicos.

Llisterri, J. (1996). Preliminary recommendations on spoken texts. EAGLES Documents EAG-TCWG-STP/P. May 1996. Consultado en http://www.ilc.cnr.it/EAGLES96/spokentx/spokentx.html

Elementos vocales y no vocales

Elementos vocales semi-léxicos

Elementos utilizados principalmente en el habla espontánea durante los momentos en que el hablante planifica la continuación de su discurso:

Corresponden a los elementos que en la TEI se marcan con la etiqueta <vocal>

Elementos vocales no léxicos:

Todo tipo de sonidos producidos por el hablante –toses, risas, bostezos, estornudos, etc.– que no constituyen formas léxicas de la lengua.

Corresponden a los codificados con la marca <vocal> en la TEI.

Acontecimientos no vocales y no comunicativos:

Comprenden los ruidos producidos por otros hablantes o procedentes del entorno de grabación.

Codificados en la TEI mediante la marca <event>

Elementos necesarios en la transcripción de interacciones verbales

Identidad del hablante:

Elemento imprescindible en la transcripción de interacciones verbales.

La TEI dispone de los mecanismos para documentar información sobre los hablantes en la cabecera de los textos, así como de un sistema para marcar la identidad de cada participante en el interior del texto, aunque pueden utilizarse también otros procedimientos.

Turnos de palabra:

Indican un cambio de hablante.

Además de las convenciones de la TEI pueden emplearse otros procedimientos, mientras se mantenga esta información, esencial en el estudio de la interacción verbal.

Superposición (solapamiento) de turnos de palabra:

Diferentes procedimientos para marcar la superposición de emisiones de dos hablantes, además de las propuestas de la TEI.

La TEI trata los solapamientos como parte de las estrategias para codificar acontecimientos simultáneos.

Elementos relacionados con la actuación del hablante

Omisiones en un texto leído:

Si se transcribe un texto leído y se dispone del original, es recomendable anotar las palabras o segmentos omitidos por el locutor.

Autocorrecciones:

Correcciones de su propia producción ingüística (self-repairs) realizadas por los hablantes.

Fragmentos de palabras:

Uno o más segmentos pertenecientes a una palabra que no ha sido totalmente pronunciada por el hablante en un primer intento y que suelen repetirse cuando éste consigue producir la palabra completa.

Fragmentos ininteligibles:

Partes de la grabación que no son comprendidas por el transcriptor.

En la TEI se codifican con la etiqueta <unclear>

Se pueden utilizar marcas más detalladas, distinguiendo entre transcripciones completamente ininteligibles y entre una posible interpretación ofrecida por el transcriptor.

EAGLES, Expert Advisory Group on Language Engineering Standards

La codificación del subcorpus oral del CREA (Corpus de Referencia del Español Actual)

up arrow

Transcripción y codificación de corpus de lengua oral


Los corpus de lengua oral
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Last updated: