VILE I
Estudio acústico de la variación inter e intralocutor en español

Memoria del proyecto

Metodología y plan de trabajo

La metodología que se propone para alcanzar los objetivos propuestos en el proyecto es la propia de los estudios experimentales en fonética (Llisterri, 1991; Shearer, 1997): formulación de las hipótesis, constitución de un corpus, análisis acústico de los materiales, tratamiento de los datos, análisis de los mismos y elaboración de conclusiones. A continuación, se describe el trabajo que se llevará a cabo en cada una de estas etapas.

1.- Formulación de hipótesis

1.1.- Revisión bibliográfica

Con objeto de delimitar los fenómenos fonéticos que se tomarán en consideración en el estudio se llevará a cabo una revisión bibliográfica centrada en tres ámbitos principales, considerando tanto los aspectos segmentales como suprasegmentales: estudios de fonética acústica del español, estudios sobre reconocimiento de locutor que consideren parámetros fonéticos y estudios de fonética forense. Por ejemplo, en este último ámbito, suelen considerarse elementos como el valor medio y el rango de variación de la frecuencia fundamental, frecuencia, ancho de banda y trayectoria de los formantes vocálicos, así como la distancia entre los mismos, ceros espectrales y frecuencias formánticas de las consonantes nasales, duración del VOT de las oclusivas o fenómenos coarticulatorios entre segmentos.

Esta fase del trabajo se llevará a cabo durante los primeros seis meses del proyecto y se llevará a cabo conjuntamente por parte del equipo de la UNED y el de la UAB, bajo la responsabilidad de la Dra. Juana Gil.

1.2.- Selección de los fenómenos considerados para el análisis

Partiendo de la revisión bibliográfica y de la experiencia previa del equipo investigador se llevará a cabo una selección de los fenómenos que se analizarán acústicamente con el fin de determinar su grado de variación entre distintos locutores y en un mismo locutor.

Se prevé un mes de trabajo para esta fase, llevada a cabo conjuntamente por la UNED y la UAB, igualmente bajo la supervisión de la Dra. Gil.

2.- Constitución del corpus

2.1.- Análisis de los recursos existentes

Considerando la necesidad de reutilización de recursos y para evitar la repetición de trabajos que han sido ya realizados, se llevará a cabo un análisis de los corpus orales existentes valorando su utilidad para la investigación propuesta. Entre los recursos inmediatamente disponibles y adecuados a los propósitos del proyecto cabe citar los siguientes:

La siguiente tabla resume los principales elementos de interés recogidos en estos corpus, como una primera aproximación a los materiales que podrían utilizarse, tras una evaluación detallada que incluyera la conveniencia de utilizar un corpus telefónico como SpeechDat para complementar al resto de los materiales:

Ahumada104 locutores10 frases (entre 8-12 palabras) fonéticamente equilibradas
1 texto (180 palabras) fonológicamente y silábicamente equilibrado
1 texto específico para cada hablante y para cada sesión de grabación
1 minuto de habla espontánea
Albayzín304 locutores6800 frases fonéticamente equilibradas
1000 de ellas segmentadas
EUROM.160 locutores40 párrafos de 5 frases cada uno
MULTEXT10 locutores40 párrafos de 5 frases cada uno con etiquetado prosódico
SpeechDat1002 locutores9 frases fonéticamente ricas (recogidas a través del teléfono)

Esta fase del trabajo, realizada, como las anteriores, de forma conjunta por los dos equipos, tiene una duración prevista de 2 meses. La Dra. Victoria Marrero es responsable de esta tarea.

2.2.- Creación de recursos complementarios

Se contempla también en el proyecto la creación de recursos adicionales en función de las hipótesis específicas que pudieran surgir como resultado de la primera etapa y que se refirieran a fenómenos que no aparecen adecuadamente representados en los corpus anteriormente descritos.

A esta labor, supervisada por la Dra. Marrero, se dedicarían 2,5 meses del proyecto, con el diseño de los materiales, realizado conjuntamente por los dos grupos y llevando a cabo la adquisición en la UNED. Esta tarea requiere especialmente la colaboración de dos licenciados en Filología Hispánica con conocimientos de fonética que se encargarían de los aspectos prácticos de la constitución del corpus adicional.

2.3.- Selección los materiales para el análisis

Una vez evaluados los recursos disponibles y disponiendo además de los recursos complementarios creados, se llevará a cabo la selección final de los materiales que serán objeto de un análisis acústico detallado, de forma que se cubra adecuadamente para cada fenómeno considerado los dos tipos de variación (inter e intralocutor) abordados en el proyecto. Se prevé estudiar un máximo de 100 locutores y un mínimo de 50 en lo que se refiere a los elementos segmentales, y un mínimo de 10 y un máximo de 50 en el análisis de los factores prosódicos.

Esta fase tiene una duración prevista de 0,5 meses y se llevará a cabo conjuntamente por parte de los dos equipos de investigación, bajo la dirección de la Dra. Marrero.

3.- Análisis acústico del corpus

El análisis acústico del corpus se llevará a cabo, junto con el tratamiento de los datos, durante el segundo año del proyecto. Para ello es preciso contar con dos licenciados en Filología Hispánica con conocimientos de fonética, que serán adecuadamente supervisados por el responsable de esta tarea en el proyecto.

3.1.-Selección de la herramienta de análisis

En esta fase de diseño del proyecto no se han tomado aún decisiones sobre las herramientas de análisis acústico que se utilizarán; se elegirá, sin embargo, un programa que permita la visualización de la forma de la onda sonora (oscilograma), de la estructura formántica (espectrograma), de la estructura espectral de los segmentos, de la curva melódica y de la curva de intensidad. La herramienta seleccionada debe permitir, además, efectuar mediciones y etiquetar el corpus tanto en el nivel fonético segmental como en el suprasegmental. Estas funciones son accesibles en muchos de los programas existentes y el equipo investigador tiene experiencia en el uso de varios de ellos (ESPS/Waves™, MES/Signaix™, Phonédit™, SoundScope™).

La selección de la herramienta, realizada conjuntamente por los dos grupos y coordinada por la Dra. María Jesús Machuca, se realizará en 0,5 meses.

3.2.- Análisis del corpus

El análisis acústico del corpus consistirá, como es habitual, en la segmentación de los elementos seleccionados para el análisis, en su etiquetado para la posterior localización y en la extracción de los valores parámetros acústicos relevantes para la caracterización de los fenómenos estudiados.

Para esta fase, con una duración prevista de 9,5 meses, es necesario, como se señalaba anteriormente, contar, para cada uno de los centros que participan en el proyecto, con un licenciado en Filología Hispánica con conocimientos de fonética dedicado al análisis acústico del corpus. La Dra. Machuca será responsable del análisis del corpus.

3.3.- Tratamiento de los datos

Una vez obtenidos los valores numéricos de los diferentes parámetros acústicos, se procederá a su tratamiento estadístico con el fin de estudiar las diversas manifestaciones fonéticas de la variación entre hablantes y en un mismo hablante.

En esta fase del trabajo y en las posteriores, es indispensable la participación de un experto en análisis estadístico de datos, colaborando a tiempo parcial con los investigadores del proyecto. La primera fase del tratamiento, encaminada a obtener una perspectiva general de los datos, se realizará en 2 meses, igualmente supervisada por la Dra. Machuca.

4.- Análisis de los datos y elaboración de conclusiones

En esta última fase del proyecto - con una duración prevista de 12 meses y llevada a cabo de forma coordinada por los dos grupos, siendo responsable de la misma el Dr. Joaquim Llisterri - se procederá al análisis de los datos obtenidos en función de las hipótesis previamente establecidas. En esta etapa es necesaria la participación de un especialista en estadística que colabore estrechamente con el equipo investigador, profundizando en los resultados preliminares y aplicando técnicas avanzadas de tratamiento de datos que permitan validar o rechazar las hipótesis propuestas.

El análisis de los resultados se abordará desde la perspectiva de la variación, tanto entre hablantes como en un mismo hablante en lo que se refiere a los elementos segmentales y suprasegmentales estudiados, y se considerará especialmente la relación entre ambos tipos de variabilidad.

Finalmente, se evaluará la aplicación de los resultados obtenidos a la mejora de los sistemas de reconocimiento de locutor mediante la incorporación de conocimientos fonéticos, así como a la integración de estos saberes en las prácticas habituales de la fonética forense.

Referencias

CAMPIONE, E.- VÉRONIS, J.(1998) "A Multilingual Prosodic Database", in ICSLP'98, Proceedings of the 5th International Conference on Spoken Language Processing, 30th November-4th December 1998, Sydney, Australia. Volume 7. pp. 3163-3166.

CASACUBERTA, F.- GARCÍA, R.- LLISTERRI, J.- NADEU, C.- PARDO, J.M.- RUBIO, A. (1992) "Desarrollo de corpus para investigación en tecnologías del habla (Albayzín)", Procesamiento del Lenguaje Natural, Boletín 12: 35-42.

CHAN, D.- FOURCIN, A.- GIBBON, D.- GRANSTRÖM, B.- HUCKVALE, M.- KOKKINAKIS, G.- KVALE, K.- LAMEL, L.- LINDBERG, B.- MORENO, A.- MOUROPOULOS, J.- SENIA, F.- TRANCOSO, I.- VELD, C.- ZEILIGER, J. (1995) "EUROM- A Spoken Language Resource for the EU", in Eurospeech'95. Proceedings of the 4th European Conference on Speech Communication and Speech Technology. Madrid, Spain, 18-21 September, 1995. Vol 1, pp. 867-870.

DÍAZ, J.- RUBIO, A.- PEINADO, A.- SEGARRA, E.- PRIETO, N.- CASACUBERTA, F. (1993) "Development of task-oriented Spanish speech corpora", in Eurospeech'93. 3rd European Conference on Speech Communication and Technology. Berlin, Germany, 21-23 September 1993.

DÍAZ VERDEJO, J.E.- PEINADO, A.M.- RUBIO, A.J.- SEGARRA, E.- PRIETO, N.- CASACUBERTA, F. (1998) "Albayzín: a task-oriented Spanish speech corpus", in RUBIO, A.- GALLARDO, N.- CASTRO, R.- TEJADA, A. (Eds.) Proceedings of the First International Conference on Language Resources and Evaluation. May 28 - 30, 1998, Granada, Spain. European Language Resources Association. Vol. I. pp. 497-502.

DRAXLER, C.- VAN DEN HEUVEL, H.- TROPF, H. (1998) "SpeechDat Experiences in Creating Large Multilingual Speech Databases for Teleservices", in RUBIO, A.- GALLARDO, N.- CASTRO, R.- TEJADA, A. (Eds.) Proceedings of the First International Conference on Language Resources and Evaluation. May 28 - 30, 1998, Granada, Spain. European Language Resources Association. Vol. I. pp. 361-366.

LLISTERRI, J. (1991) Introducción a la fonética: el método experimental. Barcelona: Anthropos (Autores, Textos y Temas, Lingüística, 3).

MORENO, A.- POCH, D.- BONAFONTE, A.- LLEIDA, E.- LLISTERRI, J.- MARIÑO, J.B.- NADEU, C. (1993) "ALBAYZIN Speech Database: Design of the Phonetic Corpus", in Eurospeech'93. 3rd European Conference on Speech Communication and Technology. Berlin, Germany, 21-23 September 1993. Vol. 1 pp. 175-178.

ORTEGA GARCÍA, J.- GONZÁLEZ RODRÍGUEZ, J. - MARRERO AGUIAR, V.- DÍAZ GÓMEZ, J.J.- GARCÍA JIMÉNEZ, R.- LUCENA MOLINA, J.- SÁNCHEZ MOLERO, J.A.G. (1998a) "AHUMADA: A Large Speech Corpus in Spanish for Speaker Identification and Verification", in Proceedings of ICAPSSP-98. IEEE International Conference on Acoustics Speech and Signal Processing. May 1998. pp. 773-776.

ORTEGA GARCÍA, J.- GONZÁLEZ RODRÍGUEZ, J.- MARRERO AGUIAR, V.- DÍAZ GÓMEZ, .J.- GARCÍA JIMÉNEZ, R.- LUCENA MOLINA, J.- SÁNCHEZ MOLERO, J.A.G. (1998b) "Speaker recognition-oriented 'Ahumada' large speech corpus", in RUBIO, A.- GALLARDO, N.- CASTRO, R.- TEJADA, A. (Eds.) Proceedings of the First International Conference on Language Resources and Evaluation. May 28 - 30, 1998, Granada, Spain. European Language Resources Association. Vol. II. pp. 1101 - 1106.

ORTEGA GARCÍA, J.- GONZÁLEZ RODRÍGUEZ, J.- MARRERO AGUIAR, V. (2000) "AHUMADA: A large corpus in Spanish for speaker characterization and identification", Speech Communication 31, 2-3: 255-264.

SHEARER, W.M. (1997) "Experimental Design and Statistics in Speech Science", in HARDCASTLE, W.J. - LAVER, J. (Eds.) The Handbook of Phonetic Sciences. Oxford: Blackwell Publishers (Blackwell Handbooks in Linguistics, 5). pp. 167-188.


BFF2001-2551 VILE I: Estudio acústico de la variación inter e intralocutor en español (2001-2004)
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
http://liceu.uab.cat/~joaquim/VILE.html
Last updated: 5/4/16 19:51

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported License.