Los corpus de lengua oral
Spoken language corpora.
Desarrollados en el marco de la lingüística de corpus.
Consisten esencialmente en la transcripción en ortografía convencional (transliteración) de una grabación a partir de la cual se lleva a cabo el tratamiento y el análisis del corpus: «texto hablado» (spoken text).
La transcripción ortográfica se enriquece con diversos aspectos que reflejan el proceso de producción del habla en función de los objetivos y aplicaciones del corpus.
El objetivo es disponer de una representación simbólica del uso oral espontáneo y natural de la lengua.
No se recoge la variación fonética.
En algún caso se añade información prosódica.
El acceso a la señal sonora se realiza únicamente en la fase de transcripción.
Analizado en tanto que «texto» con los métodos del análisis del discurso, el análisis de la conversación o la lingüística del texto.
Analizado en tanto que «muestra de lengua» en todos los niveles del análisis lingüístico: morfológico, léxico, sintáctico, semántico y pragmático.
Posibilidad de un análisis fonético —segmental y suprasegmental— o fonológico si se dispone de una transcripción fonética o fonológica.
Posibilidad de un análisis fonético acústico —segmental y suprasegmental— si se dispone de la grabación original realizada en condiciones acústicas adecuadas.
Principales características que diferencian los corpus de lengua oral de los corpus orales:
Corpus de lengua oral (spoken language corpora) Lingüística de corpus |
Corpus orales (speech corpora) Fonética Tecnologías del habla |
|
Materiales | Habla espontánea unelicited speech |
Corpus controlado elicited speech |
Nivel de análisis | Discurso, diálogo | Enunciado |
Obtención de los datos | Entorno natural | Entorno controlado |
Transcripción | Transcripción ortográfica enriquecida | Transcripción fonética y ortográfica alineada con la señal sonora |
Orientación | Representación simbólica, categorial | Señal sonora, representación temporal |
Llisterri, J. (1996). Preliminary recommendations on spoken texts. EAGLES Documents EAG-TCWG-STP/P. May 1996. Consultado en http://www.ilc.cnr.it/EAGLES96/spokentx/spokentx.html
Establecida en función de los contenidos temáticos del corpus.
Establecida en función del tipo de texto oral recogido.
Establecida en función de las situaciones comunicativas en las que se recogen los datos.
Puede determinar el grado de formalidad del registro o estilo de habla.
Puede incidir en el grado de formalidad del registro o estilo de habla.
❯ Criterios para la selección de los informantes
❯ Variables relativas a los informantes
La transcripción de un corpus oral debería cumplir una serie de requisitos.
Desde una perspectiva teórica, una transcripción debe reunir una serie de requisitos ideales:
Desde un punto de vista práctico, un sistema de transcripción debe poseer una serie de características que faciliten su uso:
❯ Transcripción ortográfica de corpus de lengua oral
En los corpus de lengua oral se emplean, en ocasiones, criterios propios del análisis del discurso y de la conversación o criterios derivados de la etnografía de la comunicación y de la sociolingüísica interaccional.
Gumperz, J. J. y Berenz, N. (1993). Transcribing conversational exchanges. En J. A. Edwards, y M. D. Lampert (Eds.), Talking data: Transcription and coding in discourse research. (pp. 91-122). Hillsdale, NJ: Lawrence Erlbaum.
Edwards, J. A. (1995). Principles and alternative systems in the transcription, coding and mark-up of spoken discourse. En G. Leech, G. Myers, y J. Thomas (Eds.), Spoken English on computer: Transcription, markup and applications. (pp. 19-34). Harlow: Longman.
Nivel de análisis | Elementos transcritos, marcados o codificados |
Nivel segmental | Alargamiento, timbre, acento, reconstrucción de segmentos elididos. |
Nivel silábico | Fronteras silábicas, alargamiento silábico. |
Nivel léxico | Fronteras de palabras, palabras truncadas, formas no estándar, formas onomatopéyicas, formas deletreadas, acrónimos, abreviaturas, cambios entonativos en la palabra, acento léxico, pausas percibidas entre palabras o en el interior de una palabra. |
Nivel sintáctico | Fronteras entre enunciados, modalidad, interrupcionesen el enunciado con o sin presencia de pausas. |
Nivel suprasegmental | Unidades entonativas |
Fronteras entre unidades entonativas o entre unidades menores, unidades tonales incompletas o truncadas, reajustes (resets) tonales, junturas, índices de cohesión, contornos tonales terminales. | |
Tono | |
Cambios melódicos en el enunciado o en parte del enunciado, nivel tonal, rango tonal, registro, movimiento tonal en la palabra o en el enunciado. | |
Acento | |
Acento de palabra, acento de frase, acento tonal, niveles de acento, prominencia, énfasis, acento contrastivo, tensión, propiedades rítmicas. | |
Intensidad | |
Intensidad absoluta o relativa de partes del enunciado | |
Velocidad de elocución | |
Cambios en la velocidad de elocución, velocidad de elocución relativa o absoluta. | |
Pausas | |
Pausas silenciosas, pausas vocalizadas, duración absoluta o relativa de las pausas. | |
Nivel paralingüístico | Vocalizaciones semi-léxicas, vocalizaciones no léxicas, cualidad de voz, otros elementos vocalizados (canto, gritos, etc.). |
Nivel discursivo | Turnos de palabra, tipo de transición entre turnos, superposición de turnos. |
Nivel contextual | Fenómenos no comunicativos no léxicos y no vocales, información kinésica. |
Utilización del lenguaje SGML (Standard Generalised Markup Language) y de sus extensiones posteriores como XML (Extensible Markup Language).
SGML, Standard Generalized Markup Language - XML, eXtensible Markup Language
Los estándares de la TEI (Text Encoding Initiative) definen los elementos que deben codificarse en las transcripciones de lengua oral.
Elemento codificado | Marca de codificación en SGML | Definición |
Divisiones (division) | <div> | Unidades intermedias entre el texto y el enunciado que permiten delimitar partes diferenciadas en un texto. |
Enunciado (utterance) | <u> | Segmento de habla comprendido entre dos pausas o delimitado por un cambio en el turno de palabra; puede incluir además información sobre la superposición (<overlap>) de turnos cuando interviene simultáneamente más de un hablante. |
Pausa (pause) | <pause> | Interrupción de la fonación percibida entre dos enunciados o en el interior de los mismos; puede describirse en términos relativos o indicando su duración. |
Vocal (vocal) | <vocal> | Elemento vocalizado semi-léxico o no léxico (p. ej., pausas llenas o toses). |
Kinésico (kinesic) | <kinesic> | Cualquier fenómeno comunicativo no vocal (p. ej., gestos). |
Acontecimiento (event) | <event> | Cualquier fenómeno identificado en la grabación no necesariamente vocalizado ni con valor comunicativo (p. ej., ruidos de fondo). |
Texto escrito (writing) | <writing> | Texto escrito que se presenta al hablante durante su intervención. |
Cambio (shift) | <shift> | Momento en el que se produce un cambio en alguno de los rasgos paralingüísticos —cualidad de voz, intensidad, rango tonal, ritmo y velocidad de elocución—; cada uno de los rasgos puede describirse mediante una lista de características. |
La codificación propuesta por la TEI permite también recoger otros elementos:
En el marco del proyecto EAGLES (Expert Advisory Group on Language Engineering Standards) se sugiere que la codificación de un texto oral debe contener, al menos, información sobre una serie de aspectos básicos.
Elementos vocales semi-léxicos
Elementos utilizados principalmente en el habla espontánea durante los momentos en que el hablante planifica la continuación de su discurso:
Corresponden a los elementos que en la TEI se marcan con la etiqueta <vocal>
Elementos vocales no léxicos:
Todo tipo de sonidos producidos por el hablante —toses, risas, bostezos, estornudos, etc.— que no constituyen formas léxicas de la lengua.
Corresponden a los codificados con la marca <vocal> en la TEI.
Acontecimientos no vocales y no comunicativos:
Comprenden los ruidos producidos por otros hablantes o procedentes del entorno de grabación.
Codificados en la TEI mediante la marca <event>
Identidad del hablante:
Elemento imprescindible en la transcripción de interacciones verbales.
La TEI dispone de los mecanismos para documentar información sobre los hablantes en la cabecera de los textos, así como de un sistema para marcar la identidad de cada participante en el interior del texto, aunque pueden utilizarse también otros procedimientos.
Turnos de palabra:
Indican un cambio de hablante.
Además de las convenciones de la TEI pueden emplearse otros procedimientos, mientras se mantenga esta información, esencial en el estudio de la interacción verbal.
Superposición (solapamiento) de turnos de palabra:
Diferentes procedimientos para marcar la superposición de emisiones de dos hablantes, además de las propuestas de la TEI.
La TEI trata los solapamientos como parte de las estrategias para codificar acontecimientos simultáneos.
Omisiones en un texto leído:
Si se transcribe un texto leído y se dispone del original, es recomendable anotar las palabras o segmentos omitidos por el locutor.
Autocorrecciones:
Correcciones de su propia producción lingüística (self-repairs) realizadas por los hablantes.
Fragmentos de palabras:
Uno o más segmentos pertenecientes a una palabra que no ha sido totalmente pronunciada por el hablante en un primer intento y que suelen repetirse cuando este consigue producir la palabra completa.
Fragmentos ininteligibles:
Partes de la grabación que no son comprendidas por el transcriptor.
En la TEI se codifican con la etiqueta <unclear>
Se pueden utilizar marcas más detalladas, distinguiendo entre transcripciones completamente ininteligibles y entre una posible interpretación ofrecida por el transcriptor.
EAGLES, Expert Advisory Group on Language Engineering Standards
❯ La codificación del subcorpus oral del CREA (Corpus de Referencia del Español Actual)
Transcripción y codificación de corpus de lengua oral