VILE-P
Estudio acústico y perceptivo de la variación prosódica inter e intralocutor en español

Memoria del proyecto

Introducción

Para lograr una adecuada caracterización de la individualidad del hablantes, Doddington (1985), en el contexto del reconocimiento automático del locutor, establece una primera división entre los parámetros de alto nivel de información, como los referidos al dialecto, el estilo, etc. y los de bajo nivel de información, como la amplitud espectral, la frecuencia del tono de voz, las frecuencias formánticas, y otros rasgos acústicos. El primer grupo se corresponde con las denominadas dimensiones socio/psicológicas (Kuwabara y Sagisaka, 1995), esto es, todos los rasgos dependientes de factores sociales, económicos, geográficos, educativos, psicológicos, físicos transitorios, sexuales o lingüísticos; el segundo grupo, en cambio, se corresponde con las dimensiones fisiológicas; Stevens (1972) destacó las siguientes, entre aquellas especialmente susceptibles de emplearse en la identificación y discriminación entre hablantes: referidas a la fuente, f0 y la forma de la onda glotal; referidas a los resonadores, frecuencias formánticas, valores medios de los formantes y su anchura, sonidos turbulentos y consonantes nasales.

Sobre el vector temporal se ha realizado un menor número de trabajos, pero algunas medidas empleadas son el tiempo total de habla, la proporción de tiempo de habla, la proporción de intervalos de silencio, la velocidad de habla y la proporción de la duración consonante/vocal. En esta línea, trabajos como Pruzansky (1963), Wolf (1972), Doherty y Hollien (1978), Brown (1981) o Johnson et al. (1984) defendieron la importancia relativa de los parámetros temporales para la caracterización del hablante; dentro de este conjunto de rasgos no estrictamente segmentales, Atal (1972) y van Dommelen (1987) apuntaban a la importancia relativa del contorno tonal.

En la actualidad, la investigación en torno a la identificación o reconocimiento automático del locutor no se centra exclusivamente en los rasgos segmentales o de ‘nivel bajo' (Shriberg, 2007), sino que estudia los denominados rasgos de ‘nivel alto' (high-level features), rasgos de largo alcance (long-range features) o rasgos prosódicos y estilísticos. Se habla de rasgos de ‘nivel bajo' para referirse a aquellos rasgos que reflejan la voz y de rasgos de ‘niveles altos' para aquellos que dan cuenta de la información fonética segmental, prosódica y léxica. En la fonética judicial se emplean habitualmente ambos tipos de rasgos cuando se trata, por ejemplo, de comparar la voz de un sospechoso con una muestra previa. En cambio, el tratamiento forense de rasgos fonéticos en la identificación automática de voz se ha centrado en los denominados de ‘nivel bajo'. Shriberg (2007) describe algunas de las ventajas que para el reconocimiento automático pueden ofrecer los denominados rasgos de nivel alto, como por ejemplo “the possibility of increased robustness to channel variation, since features such as lexical usage or temporal patterns do not change with changes in acoustic conditions” (Shriberg, 2007, p. 242).

Por su parte, Adami (2007) afirma que la prosodia puede ofrecer información específica acerca del hablante, y propone un método alternativo para capturar las diferencias prosódicas, que consiste en caracterizar la entonación, el acento o los patrones rítmicos producidos por la variación de la frecuencia fundamental y de los contornos de energía. Adami, al igual que Shriberg (2007), señala que los sistemas convencionales de reconocimiento de locutor no incorporan completamente la diversidad de niveles de información, carencia que, según estos autores, se compensaría con el estudio de elementos prosódicos –como propone Adami– o de rasgos de nivel alto –como propone Shriberg–.

Finalmente, cabe destacar que algunos proyectos de investigación, entre los que se cuenta, por ejemplo Dynamic Variability in Speech. A Forensic Phonetic Study of British English están abordando en el contexto judicial la importancia de la variabilidad temporal en el habla para la identificación del locutor.

Referencias

Adami, A. G. (2007). Modelling prosodic differences for speaker recognition. Speech Communication, 49, 277-291.

Atal, B. S. (1972). Automatic speaker recognition based on pitch contours. The Journal of the Acoustical Society of America, 52, 1687-1697.

Brown, R. (1981). An experimental study of the relative importance of acoustic parameters for auditory speaker recognition. Language and Speech, 24, 293-351.

Doddington, G. (1985). Speaker recognition - identifying people by their voices. Proceedings of the IEEE, 73, 1651-1664.

Johnson, C. C., Hollien, H. y Hicks Jr., J. W. (1984). Speaker identification utilizing selected temporal speech features. Journal of Phonetics, 12, 319-327.

Kuwabara, H. y Sagisaka, Y. (1995). Acoustic characteristics of speaker individuality: Control and conversion. Speech Communication, 16(2), 165-173.

Pruzansky, S. (1963). Pattern matching recognition procedure for automatic talker recognition. The Journal of the Acoustical Society of America, 35, 354-358.

Schriberg, E. (2007). Higher level features in speaker recognition. En C. Muller (Ed.), Speaker classification I. (págs. 241-59). Berlin - Heidelberg - New York: Springer.

Stevens, K. N. (1972). Sources of inter and intra- speaker variability in the acoustic properties of speech sounds. En ICPhS 1972. Proceedings of the 7th International Congress of Phonetic Sciences. (págs. 206-32). The Hague: Mouton.

van Dommelen, W. A. (1987). The contribution of speech rhythm and pitch to speaker identification. Language and Speech, 30(4), 325-338.

Wolf, J. J. (1972). Efficient acoustic parameters for speaker recognition. The Journal of the Acoustical Society of America, 51, 2044-2056.


FFI2010-21690-C02-02 VILE P: Estudio acústico y perceptivo de la variación prosódica inter e intralocutor en español (2011-2013)
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
http://liceu.uab.cat/~joaquim/VILE.html
Last updated: 5/4/16 20:00

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported License.