Los corpus orales



Los corpus orales

Speech corpora.
Speech databases.

El tratamiento y el análisis del corpus se realiza a partir de la señal sonora.

La representación simbólica del corpus suele realizarse mediante un alfabeto fonético.

La representación del corpus puede concebirse como un conjunto de niveles.

../spoken_res/nivells.gif
niveles_etiquetado.jpg

Niveles de representación en un corpus oral: segmentos, sílabas, palabras, representación ortográfica

Niveles de representación en un corpus oral

up arrow

El desarrollo de los corpus y las bases de datos orales

Puede considerarse que los corpus y bases de datos orales actuales surgen como resultado de la confluencia de tres tradiciones:

La fonética experimental

Desde su nacimiento a principios de siglo la fonética experimental ha utilizado corpus de datos para el análisis acústico del habla.

Relación con otras disciplinas lingüísticas como la dialectología que requieren la recogida de datos.

El uso de instrumentos propios de la fonética experimental hace necesario partir de realizaciones de uno o más hablantes.

Necesidad de controlar la aparición de las variables que pueden influir en los elementos segmentales o los elementos suprasegmentales del habla.

Corpus: conjunto controlado de realizaciones fonéticas.

La fonética experimental

Las tecnologías del habla

A partir de los años 70 se desarrollan las posibilidades de llevar a cabo aplicaciones prácticas en el campo de las tecnologías del habla, especialmente en el ámbito del reconocimiento automático del habla.

El tratamiento del corpus se realiza a partir de la señal sonora.

El objetivo es obtener información fonética o desarrollar aplicaciones de síntesis, reconocimiento o diálogo.

La representación simbólica del corpus suele hacerse mediante un alfabeto fonético.

El corpus se concibe como un conjunto de niveles de representación.

Bases de datos orales (speech databases): conjunto de realizaciones fonéticas de un número elevado de hablantes que permite el entrenamiento y la evaluación de sistemas de reconocimiento de habla así como otras aplicaciones.

Las tecnologías del habla

La lingüística de corpus

Desarrollada a partir de los años 60 al margen de las tecnologías del habla y de la fonética experimental.

Parte de la idea de que la descripción de la lengua no puede llevarse a cabo únicamente mediante la intuición del hablante nativo sino que requiere un conjunto de muestras reales.

Lingüística de corpus

Los corpus de lengua oral

up arrow

La convergencia en los enfoques

Fonética experimental y tecnologías del habla:

Necesidad de corpus con transcripción ortográfica:

“For many purposes (especially in speech technology) it has become clear that speech data can be very useful if accompanied by machine-readable annotations consisting, at the very least, of an orthographic transcription with paragraph or phrase level pointers into the acoustic data.”

Moore, R. K. (1992). User needs in speech research. En Proceedings of the workshop on European textual corpora. Pisa, Italy. 23-26 January, 1992.

Lingüística de corpus y tecnologías del habla:

Integración entre el procesamiento del lenguaje natural y las tecnologías del habla.

up arrow

Los corpus orales


Los corpus orales
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Last updated: