VILE-P
Estudio acústico y perceptivo de la variación prosódica inter e intralocutor en español

Memoria del proyecto

Metodología y plan de trabajo

La metodología que se propone para alcanzar los objetivos del subproyecto VILE-P (Estudio acústico y perceptivo de la variación prosódica inter e intralocutor en español) es la propia de los estudios experimentales en fonética (Llisterri, 1991; Shearer, 1997): formulación de las hipótesis, constitución de un corpus de trabajo, análisis acústico de los materiales, tratamiento estadístico de los datos, análisis de los resultados del tratamiento, validación perceptiva y elaboración de conclusiones. A continuación se describe el trabajo que se llevará a cabo en cada una de las tareas que configuran el subproyecto VILE-P.

Tarea 2.1 Formulación de las hipótesis iniciales

Tal y como han señalado Peskin et al. (2003) y Jessen (2007, 2009), entre otros, la identificación y el reconocimiento del hablante pueden depender de la conjunción de varios rasgos prosódicos. Se estima que los rasgos prosódicos que pueden dar cuenta de la variación intralocutor son el tono, la duración y los patrones de energía. En cuanto a la fuerza discriminatoria de este tipo de rasgos, Shriberg y Stolcke (2008), entre otros, demuestran que una combinación de ellos añade una gran cantidad de información al reconocimiento automático del locutor, tradicionalmente basado en rasgos denominados “de nivel bajo” y relacionados, esencialmente, con los elementos segmentales.

Siguiendo, pues, los postulados de Shriberg y Stolcke (2008), tras el análisis detallado de los elementos segmentales llevado a cabo en el marco de los proyectos VILE I y VILE II, (Albalá et al., 2008 a; Battaner et al., 2007, Marrero et al., 2008), el subproyecto que aquí se propone pretende abordar los rasgos prosódicos, analizándolos desde la doble perspectiva de la variación inter e intralocutor, con el fin de poder ofrecer datos relevantes para los estudios de fonética judicial y de reconocimiento automático del hablante.

Tarea 2.1.1 Revisión de los resultados obtenidos en VILE I y VILE II

En los proyectos VILE I (Estudio acústico de la variación inter e intralocutor en español) y VILE II (Estudio perceptivo de la variación inter e intralocutor en español – 2a fase) se analizaron de modo preliminar algunos rasgos prosódicos. Los estudios se centraron en el valor medio de la f0 de las muestras analizadas, en la f0 intrínseca de las vocales (Albalá et al., 2008 a), en la influencia del acento en los rasgos acústicos de las vocales, en parámetros relacionados con el grupo fónico -su duración y el número de sílabas que contiene- y en la aparición, la tipología y la duración de las pausas (Albalá et al., 2008 b).

Los resultados obtenidos en las dos fases anteriores de VILE se revisarán detalladamente en la medida en que constituyen una sólida base para la formulación de las hipótesis de VILE-P. Desde esta perspectiva, puede adelantarse, por ejemplo, que un estudio más detallado de los fenómenos relacionados con la duración y con los valores de f0 podría contribuir a mejorar los resultados obtenidos en el contexto de la fonética forense y del reconocimiento automático del locutor.

Tarea 2.1.2 Revisión bibliográfica

En esta tarea se llevará a cabo una revisión bibliográfica centrada en los trabajos que estudian otros fenómenos prosódicos en la identificación del hablante, además de la influencia de la f0, aspecto que, como se acaba de señalar, ya se tomó en consideración en los proyectos VILE I y VILE II.

En este sentido, se partirá de las aportaciones de Doddington (1985), Kuwabara y Sagisaka (1995) y Stevens (1972) en lo que se refiere a la división entre distintos tipos de parámetros que determinan la individualidad del locutor, para continuar con la revisión detallada de los trabajos centrados en el vector temporal (Pruzansky, 1963; Wolf, 1972; Doherty y Hollien, 1978; Brown, 1981; Johnson et al., 1984, entre otros), complementándolos con los que apuntan la importancia del contorno tonal (Atal, 1972; van Dommelen, 1987, entre otros). Se tomarán también en consideración contribuciones como las de Shriberg (2007), Shriberg y Stolcke (2008) y Adami (2007), en las que se establece la relevancia de los rasgos denominados “de nivel alto” en la identificación automática del hablante. En lo que respecta a los estudios perceptivos, Ramus, Nespor y Mehler (1999) proponen una medida alternativa para la percepción del ritmo: la proporción de segmentos vocálicos, su desviación estándar y la de las consonantes; puesto que, según algunos estudios, esos parámetros permiten diferenciar entre lenguas (Ramus y Mehler, 1999, Rouas, Farinas y Pellegrino, 2003) se comprobará también su papel en la diferenciación entre hablantes.

Las referencias que se acaban de mencionar, y las aproximaciones que en ellas y en otras análogas se describen, servirán de punto de partida para explorar, en la revisión bibliográfica, la posibilidad de incorporar nuevos parámetros prosódicos al estudio realizado en las posteriores etapas del subproyecto VILE-P.

Tarea 2.2 Constitución del corpus de trabajo

Siguiendo con la línea iniciada en VILE I y VILE II, el corpus de trabajo para el estudio de los fenómenos prosódicos se extraerá de las producciones de los hablantes recogidas en el corpus Ahumada (Ortega et al., 1998 a, 1998 b, 2000).

Ahumada permite el análisis de la variación inter e intralocutor, ya que contiene un mismo texto fonéticamente equilibrado leído por varios locutores y en tres sesiones de lectura por cada locutor, separadas en el tiempo entre 20 y 40 días; incluye, además, tres sesiones de grabación de habla espontánea por locutor, igualmente realizadas en momentos temporales diferentes. El corpus facilita también estudiar los efectos de la velocidad de elocución en la variación del habla de una misma persona, puesto que en cada sesión se realizó una lectura lenta, otra rápida y otra a ritmo normal.

Con los datos del corpus Ahumada es posible, como se ha indicado, llevar a cabo un estudio en el habla espontánea de los mismos parámetros que se contemplan en la lectura; es interesante destacar que una de las partes de este corpus refleja muy bien el tipo de grabaciones espontáneas que suelen realizarse cuando en los juzgados se necesitan grabaciones indubitadas para compararlas con las dubitadas. Tal tipo de grabación se caracteriza, como las de Ahumada, por la ausencia de turnos de palabra y por la falta de interacción entre los participantes en el intercambio comunicativo. En esta tarea se llevará a cabo la selección de los materiales que serán objeto de análisis en función de las hipótesis previamente definidas.

Tarea 2.3 Análisis acústico del corpus de trabajo

El análisis acústico del corpus se realizará, junto con el tratamiento de los datos, a partir del décimo mes del proyecto. Para ello es preciso contar con un licenciado en Filología Hispánica con conocimientos de fonética, que será adecuadamente supervisado por el responsable de esta tarea en el subproyecto VILE-P y que se ocupará de las labores de segmentación, etiquetado y extracción de datos. El análisis se realizará mediante el programa Praat (Boersma y Weenink, 2010), mediante el cual se llevará a cabo la segmentación de los archivos sonoros y la extracción semiautomática de los datos que se analicen.

Se analizarán, en principio los parámetros temporales, a los que se añadirán los parámetros relativos a aquellos fenómenos prosódicos que se consideren importantes a partir de la revisión bibliográfica que se habrá realizado en la tarea 2.1.

Tarea 2.3.1 Segmentación y etiquetado del corpus

En el corpus se segmentarán y se etiquetarán, considerando un orden jerárquico, las siguientes unidades:

Tarea 2.3.2 Extracción de los datos

Una vez segmentado el corpus, se extraerán de manera semiautomática los valores de duración de todas las unidades segmentadas. Además, se obtendrá el número de ítems de cada unidad. Así se sabrá cuántos segmentos forman parte de cada constituyente silábico, cuántas sílabas forman parte de cada pie métrico y el número de pies métricos de cada grupo de entonación. De este modo, además de realizar un estudio específico de la duración, se podrá observar si existen fenómenos de compensación entre los elementos de cada unidad para determinar si estos rasgos son propios de la lengua o específicos de un grupo de hablantes. También se podrá estudiar la influencia de la velocidad de elocución.

Como ya se ha indicado, si la revisión bibliográfica ha puesto en evidencia la importancia de otros parámetros prosódicos, su estudio se incorporará al análisis del corpus de trabajo.

Tarea 2.3.3 Tratamiento estadístico de los datos

Una vez obtenidos los valores numéricos de los diferentes parámetros acústicos, se procederá a su tratamiento estadístico con el fin de estudiar la relevancia del parámetro prosódico de la duración y de los que se hayan considerado a partir de la revisión bibliográfica.

En esta fase de trabajo y en las posteriores, es indispensable la participación de un experto en análisis estadístico de datos que colabore a tiempo parcial con los investigadores del proyecto.

Tarea 2.4 Validación perceptiva de los datos acústicos

De forma coordinada con el análisis acústico, se plantea en el subproyecto VILE-P una tarea de validación perceptiva, consistente en dos experimentos, el primero de ellos centrado en la detección del umbral diferencial en lo que se refiere a la velocidad de elocución y el segundo en los correlatos perceptivos del ritmo. La realización de esta tarea requiere la contratación de un licenciado con una cierta formación en ámbitos afines a la tarea como la psicología experimental.

Al igual que en las pruebas llevadas a cabo durante el proyecto VILE (Albalá et al., 2009), el objetivo final de los experimentos se centra en validar la relevancia perceptiva de los datos hallados en el análisis acústico, de modo que en la valoración de los resultados se pueda contar con dos perspectivas necesariamente complementarias.

Tarea 2.4.1 Detección del umbral diferencial en la velocidad de elocución

En el estudio de los fenómenos suprasegmentales, que constituye el objetivo de VILE-P, algunos elementos son claramente mensurables de un modo físico, considerando las características acústicas de la onda sonora: es el caso de las pausas y de las duraciones de los segmentos, responsables de la velocidad de elocución. La aportación de la tarea 2.4.1 en este punto se centrará en determinar la variación mínima necesaria para detectar un cambio en el ritmo del habla: el establecimiento de la Diferencia Mínima Perceptible (JND Just Noticeable Difference), o umbral diferencial de la velocidad de elocución. Trabajos recientes cifran en un 5% esa diferencia (Quené 2007).

En función de los resultados preliminares del análisis acústico, se optará por una de las siguientes opciones, o por ambas si se considerara necesario:

Para realizar la prueba perceptiva se utilizará el paradigma psicofísico 2IAX (Quené, 2007), en el cual los sujetos compararán dos estímulos y deberán responder si son iguales o diferentes. Los datos se analizarán a la luz de la Teoría de Detección de Señales (Green y Swets,1966), lo cual permitirá descartar sesgos causados por la tendencia del sujeto a contestar de una forma determinada (medida de criterio, β), centrándonos en la sensibilidad (d').

Tarea 2.4.2 Correlatos perceptivos del ritmo

El ritmo tiene un carácter mucho más subjetivo, y por lo tanto, dependiente de la mediación perceptiva. Muchos de los estudios sobre ritmo en español se han centrado en la búsqueda de datos que permitan clasificar nuestra lengua como de ritmo silábico y no de ritmo acentual. También los análisis perceptivos han seguido este enfoque (Amador-Hernández, 1986). El objetivo de la tarea 2.4.2 será validar los parámetros extraídos del análisis acústico (duración silábica, distancia entre acentos, distancia intervocálica, etc.) mediante pruebas perceptivas.

Las interacciones entre los diferentes parámetros que se consideran responsables del ritmo en el habla serán valoradas perceptivamente, de nuevo mediante dos posibles metodologías, de carácter complementario:

Tarea 2.5 Análisis de los datos acústicos y perceptivos y elaboración de conclusiones

En esta última fase del subproyecto se procederá al análisis de los datos obtenidos en función de las hipótesis previamente establecidas. En esta etapa también será necesaria la participación de un especialista en estadística que colabore estrechamente con el equipo investigador, profundizando en los resultados preliminares y aplicando técnicas avanzadas de tratamiento de datos que permitan validar o rechazar las hipótesis propuestas. El análisis de los resultados se abordará desde la perspectiva de la variación, tanto entre hablantes como en un mismo hablante, en lo que se refiere a los parámetros prosódicos estudiados, y se considerará especialmente la relación entre ambos tipos de variabilidad con vistas a las potenciales aplicaciones al contexto judicial y al reconocimiento automático del locutor.

Referencias

Adami, A. G. (2007). Modelling prosodic differences for speaker recognition. Speech Communication, 49, 277-291.

Albalá, M. J., Battaner, E., Carranza, M., Gil, J., Llisterri, J., Machuca, M. J., et al. (2008a). VILE: Nuevos datos acústicos sobre vocales del español. Language Design. Journal of Theoretical and Experimental Linguistics. Special Issue 1: New Trends in Experimental Phonetics: Selected Papers From the IV International Conference on Experimental Phonetics (Granada, 11-14 February 2008), 1, 1-14. Consultado en http://liceu.uab.cat/~joaquim/phonetics/VILE/VILE_IVCFE08_Vocales.pdf

Albalá, M. J., Battaner, E., Carranza, M., de la Mota, C., Gil, J., Llisterri, J., et al. (2008b). VILE: Análisis estadístico de los parámetros relacionados con el grupo de entonación. Language Design. Journal of Theoretical and Experimental Linguistics. Special Issue 2: Experimental Prosody, 2, 15-22. Consultado en http://liceu.uab.cat/~joaquim/phonetics/VILE/VILE_IVCFE08_GrupoEntonacion.pdf

Albalá, M. J., Battaner, E., Gil, J., Llisterri, J., Machuca, M., Marrero, V., et al. (2009). Vowel formant structure and speaker identification. A perceptual study. CIP 2009. 3a Conferência Ibérica de Percepção. Guimarães, Portugal, 8-10 Julho 2009. Consultado en http://liceu.uab.cat/~joaquim/phonetics/VILE/VILE_CIP09.pdf

Amador-Hernández, M. (1986). Spanish as a "syllable-timed" language. The Journal of the Acoustical Society of America, 80(S1), S96.

Atal, B. S. (1972). Automatic speaker recognition based on pitch contours. The Journal of the Acoustical Society of America, 52, 1687-1697.

Battaner, E., Carbó, C., Gil, J., Llisterri, J., Machuca, M. J., Madrigal, N., et al. (2007). VILE: Estudio acústico de la variación inter e intralocutor en español. En M. González González, E. Fernández Rei, y B. González Rei (Eds.), Actas do 3o Congreso Internacional de Fonética Experimental. (págs. 157-67). Santiago de Compostela: Xunta de Galicia. Consultado en http://liceu.uab.cat/~joaquim/phonetics/VILE/VILE_IIICFE05.pdf

Boersma, P. y Weenink, D. (2010). Praat: Doing phonetics by computer [Programa informático]. Consultado en http://www.praat.org/

Brown, R. (1981). An experimental study of the relative importance of acoustic parameters for auditory speaker recognition. Language and Speech, 24, 293-351.

Doddington, G. (1985). Speaker recognition - identifying people by their voices. Proceedings of the IEEE, 73, 1651-1664.

Doherty, E. y Hollien, H. (1978). Multiple factor speaker identification of normal and distorted speech. Journal of Phonetics, 6, 1-8.

Green, D. M. y Swets, J. A. (1966). Signal detection theory and psychophysics. Oxford: John Wiley.

Jessen, M. (2007). Forensic reference data on articulation rate in German. Science & Justice, 47, 50-67.

Jessen, M. (2009). Forensic phonetics and the influence of speaking style on global measures of fundamental frequency. En G. Grewendorf y M. Rathert (Eds.), Formal linguistics and law. (págs. 115-40). Berlin - New York: Mouton de Gruyer.

Johnson, C. C., Hollien, H., y Hicks Jr., J. W. (1984). Speaker identification utilizing selected temporal speech features. Journal of Phonetics, 12, 319-327.

Kuwabara, H. y Sagisaka, Y. (1995). Acoustic characteristics of speaker individuality: Control and conversion. Speech Communication, 16(2), 165-173.

Llisterri, J. (1991). Introducción a la fonética: El método experimental. Barcelona: Anthropos.

Marrero, V., Battaner, E., Gil, J., Llisterri, J., Machuca, M. J., Marquina, M., et al. (2008). Identifying speaker-dependent acoustic parameters in Spanish vowels. En Proceedings of Acoustics'08. (págs. 5673-7). Paris, France, June 29 - July 5, 2008. Acoustical Society of America - European Acoustics Association - Société Française d'Acoustique. Consultado en http://liceu.uab.cat/~joaquim/phonetics/VILE/VILE_Acoustics08.pdf

Ortega, J., González, J., y Marrero, V. (2000). Ahumada: A large corpus in Spanish for speaker characterization and identification. Speech Communication, 31(2), 255-264.

Ortega, J., González, J., Marrero, V., Díaz, J. J., García, R., Lucena, J., et al. (1998a). Ahumada: A large corpus in Spanish for speaker identification and verification. En ICASSP 1998. Proceedings of the IEEE International Conference on Acoustics, Speech and Signal processing. (págs. 773-6). Seattle, Washington, May 12 -15, 1998.

Ortega, J., González, J., Marrero, V., Díaz, J., García, R., Lucena, J., et al. (1998b). Speaker recognition-oriented 'Ahumada' large speech corpus. En LREC 1998. Proceedings of the 1st International Conference on Language Resources and Evaluation. Vol 2. (págs. 1101-6). Granada, Spain, May 28-30, 1998.

Peskin, B., Navratil, J., Abramson, J., Jones, D., Klusacek, D., Reynolds, R., et al. (2002). Using prosodic and conversational features for high-performance speaker recognition. En ICASSP 2003. Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing. Vol 4. (págs. 792-5).

Pruzansky, S. (1963). Pattern matching recognition procedure for automatic talker recognition. The Journal of the Acoustical Society of America, 35, 354-358.

Quené, H. (2007). On the just noticeable difference for tempo in speech. Speech Communication, 35(3), 353-362.

Ramus, F., Nespor, M., & Mehler, J. (1999). Correlates of linguistic rhythm in the speech signal. Cognition, 73, 265-292.

Ramus, F. & Mehler, J. (1999). Language identification with suprasegmental cues: A study based on speech resynthesis. The Journal of the Acoustical Society of America, 105(1), 512-521.

Rouas, J. L., Farinas, J., & Pellegrino, F. (2003). Automatic modelling of rhythm and intonation for language identification. En ICPhS 2003. Proceedings of the 15th International Congress of Phonetic Sciences. (págs. 567-70). Barcelona, Spain, 3-9 August 2003.

Schriberg, E. (2007). Higher level features in speaker recognition. En C. Muller (Ed.), Speaker classification I. (págs. 241-59). Berlin - Heidelberg - New York: Springer.

Schriberg, E. y Stolcke, A. (2008). The case for automatic higher-level features in forensic speaker recognition. En Interspeech 2008. Proceedings of the 9th Anual conference of the International Speech Communication Association. (págs. 1509-12). Brisbane, Australia, September 22-26, 2008.

Shearer, W. M. (1997). Experimental design and statistics in speech science. En The handbook of phonetic sciences. (págs. 167-88). Oxford: Blackwell.

Stevens, K. N. (1972). Sources of inter and intra- speaker variability in the acoustic properties of speech sounds. En ICPhS 1972. Proceedings of the 7th International Congress of Phonetic Sciences. (págs. 206-32). The Hague: Mouton.

van Dommelen, W. A. (1987). The contribution of speech rhythm and pitch to speaker identification. Language and Speech, 30(4), 325-338.

Wolf, J. J. (1972). Efficient acoustic parameters for speaker recognition. The Journal of the Acoustical Society of America, 51, 2044-2056.


FFI2010-21690-C02-02 VILE P: Estudio acústico y perceptivo de la variación prosódica inter e intralocutor en español (2011-2013)
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
http://liceu.uab.cat/~joaquim/VILE.html
Last updated: 5/4/16 20:00

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported License.