ESTIVOZ, Grado de espontaneidad y factores temporales en el disimulo de la voz

Memoria del proyecto

Antecedentes y estado actual de los conocimientos

Campo científico en el que se inscribe el proyecto

El proyecto DIANA y los dos subproyectos que lo integran, EMULANDO y ESTIVOZ, están claramente relacionados con el fenómeno del disimulo de la voz y con sus implicaciones, no solo en el campo más tradicional y conocido de la Fonética General sino, más en particular, en el ámbito de la Fonética Judicial (ing. Forensic Phonetics), que es aquella área de la Lingüística Legal, y por extensión de la Lingüística Aplicada, que se ocupa de analizar el habla con una finalidad judicial, esto es, de aplicar los conceptos y métodos de la Fonética General a la investigación de delitos en los cuales el habla está de algún modo implicada. En la esfera de la Fonética Judicial entran, pues, tareas como la determinación del perfil fonético de un hablante (sexo, variedad dialectal, extracción social, etc.) a partir de sus enunciados, o la comparación de muestras de habla de un locutor desconocido y de un locutor conocido para establecer sus rasgos fónicos compartidos o divergentes.

Resultados del trabajo anterior de los equipos solicitantes

En el marco del subproyecto VILE-P (Estudio acústico y perceptivo de la variación prosódica inter e intralocutor en español) no se trató la cuestión del disimulo vocal, ya que no formaba parte de los objetivos de la investigación, pero se empezaron a abordar algunos de los aspectos temporales que caracterizan la individualidad del locutor. Para ello se ha creado un corpus de una duración aproximada de 180 minutos de habla en el que cada fichero está segmentado, transcrito y etiquetado en 19 niveles: (1) transcripción fonética real; (2) transcripción fonética canónica; (3) modo de articulación; (4) segmentación silábica real; (5) segmentación silábica canónica; (6) constituyentes silábicos; (7) categoría “consonante” o “vocal”; (8) grupos de sonidos vocálicos y grupos de sonidos consonánticos adyacentes; (9) palabras; (10) pies métricos con el núcleo a la derecha; (11) pies métricos con el núcleo a la izquierda; (12) tonicidad de la sílaba; (13) grupos acentuales; (14) grupos de sonidos sordos y grupos de sonidos sonoros adyacentes; (15) representación ortográfica; (16) grupos fónicos; (17) duración total; (18) fenómenos relacionados con límites prosódicos; y (19) presencia de voz rota. A partir de este corpus, se han creado 7 bases de datos que se están analizando desde el punto de vista estadístico y que contienen la siguiente información: (1) segmentos; (2) sílabas; (3) pies métricos con el núcleo a la derecha; (4) pies métricos con el núcleo a la izquierda; (5) variables temporales; (6) segmentos vocálicos y segmentos consonánticos; (7) segmentos sordos y segmentos sonoros.

Los datos de naturaleza acústica requieren, sin embargo, el complemento ineludible de los estudios perceptivos. En este sentido, en VILE-P se ha llevado a cabo un estudio sobre los umbrales diferenciales en la percepción de la velocidad de habla que ha permitido concluir que los valores de los umbrales obtenidos empleando estímulos en español parecen coincidir razonablemente bien con los alcanzados en tareas semejantes en otros idiomas. Por otro lado, los resultados del experimento apuntan a que cuando el nivel de complejidad lingüística de los enunciados varía drásticamente, también lo hacen los valores de los umbrales diferenciales, de modo que un mayor nivel de complejidad (es decir, estímulos consistentes en frases, en contraste con los compuestos por pseudopalabras o por cadenas de sílabas) parece dificultar la tarea de detectar cambios en la velocidad de elocución.

En cuanto a los correlatos perceptivos del ritmo, los primeros resultados del proyecto indican que algunas de las llamadas métricas rítmicas, que han centrado los estudios sobre este rasgo en las últimas décadas, resultan fácilmente discriminables incluso en condiciones extremas –eliminación de todas las demás claves acústicas y control exhaustivo sobre las fuentes de variabilidad en la señal–, en las que no se habían estudiado previamente. Una de ellas, el porcentaje de duración de los segmentos en relación con la duración total del enunciado (%V), podría resultar relevante en el ámbito judicial, por sus elevadas tasas de discriminación en emisiones de diferentes locutores y su baja perceptibilidad en las emisiones de un mismo hablante. Estos resultados (que, por el momento, solo son significativos en estímulos con una estructura silábica consonante-vocal, pero no en otros con mayor complejidad silábica) deben confirmarse mediante estudios más amplios, como los que nos proponemos abordar en este proyecto.

Cabe destacar que los resultados que se han ido obteniendo a lo largo del proyecto La contribución del nivel suprasegmental del habla y la caracterización del locutor en fonética judicial en su conjunto refuerzan la importancia de los factores temporales en la caracterización de la individualidad de un hablante. Además de la cualidad de voz, estudiada en el subproyecto CIVIL, los fenómenos propios del habla espontánea que reflejan la planificación del discurso oral (en especial, las denominadas “pausas llenas”), las interrupciones en el mismo (es decir, las pausas que se conocen como “vacías”), así como las variaciones en aspectos como el ritmo y la velocidad de elocución se perfilan como elementos muy relevantes en el ámbito de la fonética judicial que requieren un estudio detallado.

Bibliografía

Estudio de los fenómenos propios del habla espontánea en fonética judicial

Albalá, M. J., Battaner, E., Carranza, M., de la Mota, C., Gil, J., Llisterri, J., ... Ríos, A. (2008). VILE: Análisis estadístico de los parámetros relacionados con el grupo de entonación. Language Design. Journal of Theoretical and Experimental Linguistics. Special Issue 2: Experimental Prosody, 2, 15-22.

Brander, D. (2014). Phonetic characteristics of hesitation vowels in Swiss German and their use for forensic speaker identificacion. En IAFPA 2014. 23rd Annual Conference of the International Association for Forensic Phonetics and Acoustics. Zürich, Switzerland. 31 August - 3 September, 2014.

Cicres, J. (2007). Análisis discriminante de un conjunto de parámetros fonético-acústicos de las pausas llenas para identificar hablantes. Síntesis tecnológica, 3(2), 87-96.

Cicres, J. (2011). Acoustic discriminant analysis of full pauses for voice comparison. En IAFPA 2011. 20th Annual Conference of the International Association for Forensic Phonetics and Acoustics. Vienna, Austria. 24-28 July, 2011.

Cicres, J. (2012). Comparación forense de voces mediante el análisis multidimensional de las pausas rellenas. En La lingüística aplicada en la era de la globalización. XXX Congreso Internacional de AESLA (pp. 138-139). Universitat de Lleida. 19-21 de abril de 2012.

Duckworth, M. (2006). How speaker specific are non fluencies? En IAPFA 2006. 15th Annual Conference of The International Association for Forensic Phonetics and Acoustics. Göteborg, Sweden. 23-26 July, 2006.

Duckworth, M. y McDougall, K. (2014). Assessing the consistency of disfluency measures in characterising speakers. En IAFPA 2014. 23rd Annual Conference of the International Association for Forensic Phonetics and Acoustics. Zürich, Switzerland. 31 August - 3 September, 2014.

Villar, G., Arciuli, J. y Mallard, D. (2011). Use of “um” in the deceptive speech of a convicted murderer. Applied Psycholinguistics, 33(1), 83-95.

Wood, S., Hughes, V. y Foulkes, P. (2014). Filled pauses as variables in speaker comparison: dynamic formant analysis and duration measurements improve performance. En IAFPA 2014. 23rd Annual Conference of the International Association for Forensic Phonetics and Acoustics. Zürich, Switzerland. 31 August - 3 September, 2014.

Estudio de los factores temporales en fonética judicial

Cao, H. y Wang, Y. (2007). A forensic aspect of articulation rate variation in Chinese. En ICPhS 2007. Proceedings of the 16th International Congress of Phonetic Sciences (pp. 396-399). Hong-Kong, China. 17-21 Agosto, 2011.

Federico, A., Mori, L. y Paoloni, A. (2005). La velocità di articolazione come parametro identificativo: potenzialità e limiti per la caratterizacione del parlante. En P. Cosi (Ed.), AISV 2004. Misura dei parametri. Aspetti tecnologici ed implicazioni nei modelli linguistici. Atti del 1o Convegno Nazionale AISV - Associazione Italiana di Scienze della Voce. Università di Padova. 2-4 Diciembre 2004 (pp. 869-876). Brescia: EDK Editore.

Johnson, C. C., Hollien, H., y Hicks Jr., J. W. (1984). Speaker identification utilizing selected temporal speech features. Journal of Phonetics, 12, 319-327.

Künzel, H. (1997). Some general phonetic and forensic aspects of speaking tempo. International Journal of Speech, Language and the Law, 4(1), 48-83.

Leemann, A., Kolly, M.-J. y Dellwo, V. (2014). Speaker-individuality in suprasegmental temporal features: Implications for forensic voice comparison. Forensic Science International, 238, 59-67.

Romito, L., Lio, R., Ferri, P. F. y Giordano, S. (2010). Stabilità dei parametri nello speaker recognition. La variabilità intra e inter parlatore: F0, durata e articulation rate. En S. Schmid, M. Schwarzenbach y D. Studer (Eds.), AISV 2009. La dimensione temporale del parlato. Atti del 5. Convegno Nazionale AISV - Associazione Italiana di Scienze della Voce. Università di Zurigo. 4-6 Febbraio 2009 (pp. 643-670). Torriana: EDK Editore.


FFI2014-59848-C2-2-P ESTIVOZ, Grado de espontaneidad y factores temporales en el disimulo de la voz
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Last updated: