VILE II
Estudio perceptivo de la variación inter e intralocutor en español

Memoria del proyecto

Finalidad del proyecto

El presente proyecto, continuación de uno financiado durante el trienio 2001-2004 (BFF2001-2552), se propone profundizar en el estudio de la variación inter e intralocutor; obtenidos ya los parámetros acústicos más relevantes, nuestra meta ahora es validarlos mediante experimentos perceptivos, de tal manera que, una vez que se establezcan definitivamente, puedan ser incorporados a los sistemas para reconocimiento, identificación y verificación automática de hablantes y a la práctica forense. Por lo tanto, aunque estas etapas se consideran de investigación básica, sus objetivos concretos a medio plazo responden a necesidades de dos campos de investigación aplicada con implicaciones sociales y comerciales.

El estudio de la variación fonética es uno de los temas de más actualidad en este campo, tanto por sus aplicaciones (en áreas que van desde la sociolingüística hasta la lingüística clínica, pasando por la enseñanza de lenguas, el reconocimiento de habla, etc) como por sus repercusiones teóricas. Sin embargo, desde la lingüística, tradicionalmente se ha enfocado el estudio de los sonidos del habla considerando más las similitudes entre hablantes (o en las distintas emisiones de un mismo sujeto) que las diferencias entre ellos.

En esa etapa, era necesario encontrar constantes que explicaran el uso de los sonidos para la comunicación, la búsqueda se centraba en los elementos físicos invariantes que los hablantes asociamos a cada unidad abstracta, a cada fonema (Jakobson, 1963; Jakobson, Fant y Halle, 1952; Stevens y Blumstein, 1981, Blumstein, 1986). Por lo tanto, las variaciones inter o intralocutor eran consideradas "ruidos" que debían ser abstraídos para acceder a lo esencial de las relaciones fónicas entre elementos lingüísticos (Nolan, 1983:3). Incluso los estudios dialectales, sociolingüísticos, y contrastivos o tipológicos han requerido estudiar el habla de un número representativo de sujetos, pero el análisis se ha centrado, fundamentalmente, en las características comunes de todos ellos.

La necesidad de conocer los rasgos fónicos que caracterizan y diferencian a un individuo frente a todos los demás provino principalmente de dos ámbitos aplicados: la tecnología del habla y el contexto judicial. Como se verá a continuación, ambos han dado numerosos frutos, tanto en lo que respecta a trabajos de investigación como al desarrollo de instrumentos. Sin embargo, los trabajos sobre reconocimiento, identificación y verificación del locutor, tanto en el contexto forense como en el de las aplicaciones telefónicas, se han realizado principalmente por grupos especializados en el tratamiento de señal desde el campo de las telecomunicaciones. Aunque algunos especialistas en fonética hayan abordado el problema de la identidad del locutor (Garvin - Ladefoged, 1963; Stevens, 1972; Lehiste, 1973; van Dommelen, 1987, 1990; Nolan, 1983; Brown, 1987; Dankoviková - Nolan, 1999, entre otros), la presencia de esta disciplina en los equipos de trabajo antes mencionados no ha tenido un peso especial, a pesar de que, como afirma Nolan (1983:2):

"An emerging discipline of speaker recognition should instead develop as an integral element of phonetics, which itself, being principally though not exclusively the study of language realised in the spoken medium, must constitute part of a broadly delimited linguistics"
En nuestro país también es escasa la colaboración de expertos en fonética con grupos dedicados al reconocimiento del hablante - si exceptuamos la establecida entre el Departamento de Lengua Española de la Universidad Nacional de Educación a Distancia y el Departamento de Ingeniería Audiovisual y Comunicaciones de la Universidad Politécnica de Madrid, reflejada en publicaciones como Ortega et al. (1998 a, b, c, 2000) - y tampoco son abundantes los trabajos sobre fonética forense, aunque algunos expertos hayan llevado a cabo aportaciones muy relevantes en este campo (Quilis, 1990).

Nuestro objetivo ha sido, desde el año 2001, en que se nos concedió la primera parte de este Proyecto de Investigación, enriquecer esa colaboración, desde un conocimiento más preciso de los parámetros fonéticos que subyacen a la identificación y el reconocimiento de locutores.

Antecedentes y estado actual del tema

Como decíamos anteriormente, por una parte, la aparición de servicios telefónicos automáticos a través de los que es posible realizar transacciones comerciales - por ejemplo, la banca telefónica - ha despertado el interés por las características fonéticas individuales que permitan verificar y validar la identidad de una persona mediante su voz; por tal motivo, el campo del reconocimiento, la identificación y la verificación automática del locutor, a pesar de constituir una línea de trabajo con importantes precedentes (Bricker-Pruzansky, 1976; Rosenberg, 1976; Cosi, 1982; Hernández et al., 1984; Doddington, 1985; Shuterland - Jack, 1877; Chollet, 1994; Furui, 1996, 1997; Bourlard - Morgan, 1998; Rodríguez et al., 1998) ha experimentado un creciente auge en los últimos años.

Por otro lado, la práctica jurídica requería también la identificación de voces, bien comparando una muestra indubitada, de cuyo emisor conocemos la identidad, con otra presuntamente emitida por la misma persona (es el caso de las grabaciones telefónicas utilizadas como prueba inculpatoria); o bien intentando identificar a un hablante ex nihilo, en el caso de secuestros, o extorsiones, por ejemplo. La necesidad de disponer de datos sobre la variación entre locutores, así como la de identificar a una persona por medio de su voz, han despertado un creciente interés en el desarrollo de la fonética forense (Tosi, 1975, 1979; Baldwin-French, 1990; Hollien, 1991; Nolan, 1997). Buena muestra de ello son la existencia de asociaciones profesionales como la IAFP, International Association for Forensic Phonetics, que publica, desde 1991, la revista The International Journal of Speech, Language and the Law (London: Equinox Publishing), celebra congresos anuales y mantiene una lista electrónica de distribución.

Como consecuencia de lo anterior, en el contexto europeo, ha tenido lugar la celebración de seminarios monográficos (Speaker Characterization in Speech Technology, Laver et al. Eds., 1990; RLA2C, Speaker Recognition and its Commercial and Forensic Applications, 1998), la financiación de proyectos en este ámbito como Cost 250 Speaker Recognition in Telephony (COST 250, 1996, 1998, 1999; Hernando et al., 2000), CAVE The European Caller Verification Project (Bimbot et al. 1997, 1998, 2000; Lindberg et al., 1997), PICASSO Pioneering Caller Authentication for Secure Service Operation (Bimbot et al., 1999) o VeriVox, Voice Variability in Speaker Verification (Karlsson et al., 1998; Nolan - Scherer, 2000), así como la aparición de publicaciones derivadas de los trabajos realizados (Bimbot et al. Eds., 1995; André-Obrecht, Ed., 2000; Cappé, 1996; Genoud, s.f.).

En España, el reconocimiento de voces con fines comerciales (a través del teléfono, fundamentalmente) ha sido el objeto de trabajo de varios grupos, constituidos por ingenieros de telecomunicaciones, con la colaboración de lingüistas. Son equipos como el de Tecnología del Habla del Departamento de Ingeniería Electrónica (Universidad Politécnica de Madrid); siguiendo en Madrid, también han trabajado en el campo desde el Departamento de Informática de la Universidad Carlos III; en Barcelona, el Grup de Tractament de la Parla del Departament de Teoria del Senyal i Comunicacions (Universitat Politècnica de Catalunya); el Grupo de Tecnologías de las Comunicaciones del Departamento de Ingeniería Electrónica y de Comunicaciones, (Universidad de Zaragoza), el Departamento de Informática de la Universidad de Valladolid, o el Grupo de Procesamiento de la Señal del Departamento de Tecnologías de las Comunicaciones, (Universidade de Vigo). Telefónica, desde el campo de la empresa privada, es la que cuenta con un equipo de investigación, ubicado en el Área de I+D. La actividad de los grupos mencionados se ha llevado a cabo en el marco de proyectos con financiación europea, como Cost 250 Speaker Recognition in Telephony.

El área forense o judicial ha sido abordada también desde las Universidades Politécnicas, de Madrid (Área de Tratamiento de Voz y Señal del Departamento de Ingeniería Audiovisual y Comunicaciones EUIT Telecomunicación, UPM); Catalunya (Grup de Tractament de la Veu del Departament de Telecomunicacions i Arquitectura d'Ordinadors; Escola Universitaria Politécnica de Mataró, UPC); Cartagena (Departamento de Matemática Aplicada y Estadística, y el de Tecnología Electrónica, UPC). Y por la Facultad de Medicina de la Universidad de Murcia, el Grupo de Acústica de la Voz y el Habla del Departamento de Dermatología, Estomatología, Fisioterapia y Radiología. Algunos proyectos de investigación recientemente financiados en este ámbito han sido "Sistema Integrado de Reconocimiento Robusto de Locutores sobre Base de Datos Específica" (CICYT, PRONTIC, 1997-2000) o el "Sistema Integrado de Procesado de Señal para Aplicaciones en Acústica Forense" (CICYT, PRONTIC, 1994 - 1996).

Desde ámbitos no universitarios, lógicamente la Dirección General de la Guardia Civil lleva a cabo actividades muy relevantes en este campo, desde su Departamento de Acústica e Imagen, dependiente de la Jefatura de Investigaciones y Criminalística. La Comisaría General de Policía Científica también dispone de un Laboratorio de Acústica Forense. Por último, en el año 2004 se crea la empresa Agnitio, fundada por especialistas de algunas de las instituciones mencionadas anteriormente; dedicada a la Biometría, cuenta con un departamento especial para reconocimiento de locutor, desde la que ofrecen diversas aplicaciones informáticas relacionadas con la acústica forense.

Existe también una asociación profesional, la Sociedad Española de Acústica Forense, constituida en 1999, que ha celebrado dos Congresos en Madrid (2000) y Barcelona (2003), que han reunido a buena parte de los expertos españoles en el tema.

El equipo investigador

El equipo investigador está constituido por especialistas en fonética que han centrado especialmente sus trabajos en el análisis acústico de los elementos segmentales en habla espontánea (Aguilar et al., 1991; Aguilar et al., 1993; Aguilar - Machuca, 1995; Harmegnies et al., 1992; Machuca, 1991, 1997) o en otros estilos (Marrero, 1990; Albalá, 1992), en el estudio de los suprasegmentales (Albalá - Marrero, 1995; de la Mota, 1995, 1997; Garrido et al., 1993, 1995 a, b; Llisterri et al., 1995) y en la descripción fonética y fonológica del español (de la Mota - Ríos, 1995; Gil, 1988, 2000; Gil, Ed., 2000; Machuca, 2000 a, b; Ríos, 1993, 1994; 1998, Albalá 2001), así como en cuestiones directamente relacionadas con el reconocimiento de hablantes (Ortega et al. (1998 a, b, c), la fonética forense (Gil, 1998) o en campos afines, como el estudio fonético de las patologías del habla y de la audición (Marrero, 2000 a, b). Por otra parte, la participación de los miembros del equipo en proyectos de investigación de naturaleza fundamentalmente aplicada (algunos de ellos directamente relacionados con la línea de investigación que aquí se propone como el proyecto "Sistema integrado de reconocimiento robusto de locutores sobre base de datos específica", CICYT 1997-1999), en convenios con empresas dedicadas a las tecnologías del habla (Telefónica I+D, CNET - Centre National des études des Télécommunications, CSELT - Centro Studi e Laboratori Telecomunicazioni; Aguilar et al., 1997; Llisterri, 1997) y su estrecha colaboración con otros grupos, como son el érea de Tratamiento de Voz y Señal del Departamento de Ingeniería Audiovisual y Comunicaciones (Universidad Politécnica de Madrid), el Grupo de Tecnología del Habla del Departamento de Ingeniería Electrónica (Universidad Politécnica de Madrid) y el Grup de Tractament de la Parla del Departament de Teoria del Senyal i Comunicacions (Universitat Politècnica de Catalunya), directamente implicados en las áreas a las que se aplicarán los resultados del trabajo llevado a cabo, garantizan que los resultados del proyecto serán de utilidad directa para su posterior aplicación.

Los resultados de nuestro primer proyecto nos permitieron caracterizar acústicamente los elementos segmentales y suprasegmentales responsables de la individualidad del hablante, de tal manera que nuestras conclusiones pueden utilizarse para mejorar aplicaciones de tecnologías del habla para reconocimiento, identificación y verificación de locutores, así como para mejorar las técnicas de fonética forense. Más adelante, en el apartado correspondiente, se encontrarán detallados los objetivos y resultados alcanzados.

Referencias

AGUILAR, L.- BLECUA, B.- MACHUCA, M.- MARÍN, R. (1993) "Phonetic reduction processes in spontaneous speech", in Eurospeech'93. 3rd European Conference on Speech Communication and Technology. Berlin, Germany, 21-23 September 1993. Vol 1 pp. 433-436.

AGUILAR, L.- GARRIDO, J.M.- LLISTERRI, J. (1997) "Incorporación de conocimientos fonéticos a las tecnologías del habla", in SERRA, E.- GALLARDO, B.- VEYRAT, M.- JORQUES, D.- ALCINA, A. (Eds.) Panorama de la investigació lingüística a l'Estat Espanyol. Actes del I Congrés de Lingüística General. Volum III. Comunicacions: Fonètica i Fonologia. Semàntica i Pragmàtica. València: Universitat de València. pp. 5-13.

AGUILAR, L.- MACHUCA, M. (1995) "Intentionality in the Speech Act and Reduction Phenomena", in ELENIUS, K.- BRANDERUD, P. (Eds.) Proceedings of the XIIIth International Congress of Phonetic Sciences, Stockholm, Sweden, 13-19 August, 1995. Vol 3. pp. 460-464.

AGUILAR, L.- MACHUCA, M.J.- MARTÍNEZ, G.(1991) "Analysis of the Spanish sequence "de" in content words and in function words in continuous speech", in Proceedings of the ESCA Workshop 'Phonetics and Phonology of Speaking Styles: Reduction and Elaboration in Speech Communication'. Barcelona, Catalonia, Spain, 30 September - 2 October 1991. pp. 7-1 - 7-4.

ALBALÁ, M.J. (1992) "Análisis y síntesis de las consonantes nasales", Revista de Filología Española, 72, pp. 37-55.

ALBALÁ, M.J. (2001) "La articulación del lenguaje ", Mapfre Medicina, vol. 12, supl. 1: 19-23.

ALBALÁ, M.J. - MARRERO, V. (1995) "La intensidad de los sonidos españoles", Revista de Filología Española, 75 (1-2): 105-132.

ANDRÉ-OBRECHT, R. (Ed.) (2000) Special Issue on Speaker Recognition and its Commercial and Forensic Applications, Speech Communication 31, 2-3.

BALDWIN, J.- FRENCH, P. (1990) Forensic Phonetics. London: Pinter Publishers.

BATTANER, E.- GIL, J.- MARRERO, V.- LLISTERRI, J.- CARBÓ, C.- MACHUCA, M.J.- de la MOTA, C. - RÍOS, A. (2003) "VILE: Estudio acústico de la variación inter e intralocutor en español", en SEAF 2003. Actas del II Congreso de la Sociedad Española de Acústica Forense. Barcelona, 10 y 11 de abril de 2003. Barcelona: SEAF, Sociedad Española de Acústica Forense. pp. 59-70.

BATTANER, E.- CARBÓ, C.- GIL, J.- LLISTERRI, J.- MACHUCA, M.- MADRIGAL, N.- MARRERO, V.- de la MOTA, C.- RIERA, M.- RÍOS, A. (2004) "VILE: Estudio acústico de la variación inter e intralocutor en español", en Actas del 6º Congreso de Lingüística General. Santiago de Compostela, 3-7 de mayo de 2004. érea de Lingüística Xeral, Universidade de Santiago de Compostela.

BATTANER, E.- CARBÓ, C.- GIL, J.- LLISTERRI, J.- MACHUCA, M.J.- MADRIGAL, N.- MARRERO, V.- de la MOTA, C.- RIERA, M.- RÍOS, A. (2003) "VILE: estudio acústico de la variación inter e intralocutor en español", XXXIII Simposio de la Sociedad Española de Lingüística, Girona, 16-19 de diciembre de 2003.

BIMBOT, F. - HUTTER, H.P. - JABOULET, C., KOOLWAAIJ, J. - LINDBERG, J. - PIERROT, J.B. (1998) "An overview of the CAVE project research activities in Speaker Verification", in Proceedings of RLA2C, Speaker Recognition and its Commercial and Forensic Applications. Avignon, France, April 1998. pp. 215-220.

BIMBOT, F.- BLOMBERG, M.- BOVES, L.- CHOLLET, G.- JABOULET, C.- JACOB, B.- KHARROUBI, J.- KOOLWAAIJ, J.- LINDBERG, J.- MARIETHOZ, J.- MOKBEL, C.- MOKBEL, H. (1999) "An overview of the Picasso project research activities in speaker verification for telephone application", in Eurospeech'99, 6th European Conference on Speech Communication and Technology. September 5-9, 1999, Budapest, Hungary.

BIMBOT, F.- BLOMBERG, M.- BOVES, L.- GENOUD, D.- HUTTER, H.-P. - JABOULET, C.- KOOLWAAIJ, J.- LINDBERG, J.- PIERROT, J.-B. (2000) "An overview of the CAVE project research activites in speaker verification", Speech Communication 31, 2-3: 155-180.

BIMBOT, F.- CHOLLET, G.- PAOLONI, A. (Eds.) (1995) Special Section on Automatic Speaker Recognition, Identification and Verification, Speech Communication 17, 1-2: 81-298.

BIMBOT, F.- HUTTER, H.P.- JABOULET, C. - KOOLWAAIJ, J..- LINDBERG, J. - PIERROT, J.B. (1997) "Speaker Verification in the Telephone Network : Research Activities in the CAVE project", in Eurospeech'97. Proceedings of 5th International Conference on Speech Communication and Technology. Rhodes, Greece, September 1997. pp. 971-974.

BLUMSTEIN, S.E. (1986) "Acoustic Invariance in Speech", in PERKELL, J.S. - KLATT, D.H. (Eds.) Invariance and Variability in Speech Processes. Hillsdale: Lawrence Erlbaum Ass.pp. 178-193.

BOURLARD, H. - MORGAN, N. (1998) Speaker Verification. A Quick Overview. IDIAP Technical Report, IDIAP-RR 98-12.

BRICKER, P.D. - PRUZANSKY, S. (1976) "Speaker Recognition", in N.J. LASS (Ed.) Contemporary Issues in Experimental Phonetics. New York: Academic Press. pp. 295-326.

BROWN, R. (1987) Auditory Speaker Recognition. Hamburg: Helmut Buske (Forum Phoneticum, 38).

CAPPÉ, O. (1996) Speaker Recognition Bibliography.

COSI, P. (1982) " Speaker recognition: A survey ", in HATON, J.P. (Ed.) (1982) Automatic Speech Analysis and Recognition. Dordrecht: Reidel. pp. 277-308.

COST 250 (1996) COST 250 Workshop Proceedings "Application of Speaker Recognition Techniques in Telephony". Vigo, Spain, November 1996.

COST 250 (1998) COST 250 Workshop Proceedings "Speaker Recognition by Man and Machine: Directions for Forensic Applications". Ankara, Turkey, April 1998

COST 250 (1999) COST 250 Speaker Recognition in Telephony. Final Report 1999. Brussels: European Commission DG XIII Directorate B / Roma: Fondazione Ugo Bordoni. (CD-ROM)

CHOLLET, G. (1994) "Automatic Speech and Speaker Recognition: Overview, Current Issues and Perspectives", in KELLER, E. (Ed.) Fundamentals of Speech Synthesis and Speech Recognition. Basic Concepts, State of the Art and Future Challenges. Chichester: John Wiley & Sons. pp. 129-148.

DANKOVICOVÁ, J.- NOLAN, F. (1999) "Some acoustic effects of speaking style on utterances for automatic speaker verification", Journal of the International Phonetic Association 29, 1: 115-128.

de la MOTA, C. (1995) La representación gramatical de la información nueva en el discurso. Tesis doctoral. Departament de Filologia Espanyola, Universitat Autònoma de Barcelona.

de la MOTA, C. (1997) "Prosody of sentences with contrastive new information in Spanish", in BOTINIS, A.- KOUROUPETROGLOU, G.- CARAYANNIS, G. (Eds.) Intonation: Theory, Models and Applications. Proceedings of an ESCA Workshop. Athens. Pp. 75-78.

de la MOTA, C. - RÍOS, A. (1995) "Problemas en torno a la transcripción fonética del español: los alfabetos fonéticos propuestos por IPA y RFE y su aplicación a un sistema automático", Acta Universitatis Wratislaviensis nº 1660, Estudios Hispánicos IV. Wroclaw. pp. 97-109.

DODDINGTON, G. (1985) "Speaker recognition - identifying people by their voices", Proceedings of the IEEE 73: 1651-1664.

ESKÉNAZI, M. (1993) "Trends in Speaking Styles Research", in Eurospeech'93. 3rd European Conference on Speech Communication and Technology. Berlin, Germany, 21-23 September 1993. Vol. 1 pp. 501-512.

FURUI, S. (1996) "An overview of speaker recognition technology", in LEE, C.-H. - SOONG, F. K.- PALIWAL, K.K. (Eds.) Automatic Speech and Speaker Recognition. Dordrecth: Kluwer Academic Publishers. pp. 31-56.

FURUI, S. (1997) "Speaker Recognition", in COLE, R.A.- MARIANI, J.- USZKOREIT, H.- ZAENEN, A.- ZUE, V. (Eds) Survey of the State of the Art in Human Language Technology. Cambridge: Cambridge University Press. pp. 42-48.

GARRIDO, J.M.- LLISTERRI, J.- de la MOTA, C.- RÍOS, A. (1993) "Prosodic differences in reading style: Isolated vs. Contextualized Sentences", in Eurospeech'93. 3rd European Conference on Speech Communication and Technology. Berlin, Germany, 21-23 September 1993. Vol 1. pp. 573-576.

GARRIDO, J.M.- LLISTERRI, J.- de la MOTA, C.- RÍOS, A. (1995) "Estudio comparado de las características prosódicas de la oración simple en español en dos modalidades de lectura", in ELEJABEITIA, A.- IRIBAR, A. (Eds.) Phonetica. Trabajos de fonética experimental. Bilbao: Universidad de Deusto (Serie Lingüística, 6) pp. 173-194.

GARRIDO, J.M.- LLISTERRI, J.- MARÍN, R.- de la MOTA, C.- RÍOS, A. (1995) "Prosodic markers at syntactic boundaries in Spanish", in ELENIUS, K.- BRANDERUD, P. (Eds.) ICPhS 95, Proceedings of the XIIIth International Congress of Phonetic Sciences. Stockholm, Sweden, 13-19 August, 1995. Vol. 2, pp. 370-373.

GARVIN, P.L.- LADEFOGED, P. (1963) "Speaker identification and message identification in speech recognition", Phonetica 9: 193-199.

GENOUD, D. Speaker Recognition References. IDIAP.

GIL FERNÁNDEZ, J. (1988) Los sonidos del lenguaje. Madrid: Síntesis (Textos de apoyo, Lingüística 3), 1993.

GIL FERNÁNDEZ, J. (1998) "Fonética judicial", Corrientes actuales de la investigación lingüística, Ciudad Real, Universidad de Castilla - La Mancha.

GIL FERNÁNDEZ, J. (2000) "25 años de fonología española", in 25 años de investigación en lengua española. Tarragona: Universitat Rovira i Virgili.pp. 1-60. GIL FERNÁNDEZ, J. (Ed.) (2000) Panorama de la fonología española actual. Madrid: Arco/Libros.

HARMEGNIES, B.- POCH, D.- AGUILAR, L.- MACHUCA, M.J.- MARTÍNEZ, G. (1992) "Analyse de la variabilité phonétique en parole spontanée: réflexions méthodologiques et études de cas", in Actes des 9èmes Journées d'études sur la Parole, Bruxelles.

HERNÁNDEZ, L.A.- CASAJS, F.J.- GARCÍA GÓMEZ, R. (1984) "Identificación de personas por sus voces", Mundo electrónico 146: 83-91.

HERNANDO, J.- GARCÍA, C.- RODRÍGUEZ, L.- GONZÁLEZ, J.- ORTEGA, J. (2000) "Reconocimiento del locutor en telefonía: actividades del proyecto europeo COST250", in ORTEGA GARCÍA, J. (Ed.) SEAF 2000. Actas del I Congreso de la Sociedad Española de Acústica Forense. Universidad Politécnica de Madrid, Escuela Universitaria de Ingeniería Técnica de Telecomunicación, Madrid, 5-6 de octubre de 2000. Madrid: EUIT de Telecomunicación. pp. 145-148.

HERNANDO, J.- GARCÍA, C.- RODRÍGUEZ, L.- GONZÁLEZ, J.- ORTEGA, J. (2000) "Reconocimiento del locutor en telefonía: actividades del proyecto europeo COST250", in ORTEGA GARCÍA, J. (Ed.) SEAF 2000. Actas del I Congreso de la Sociedad Española de Acústica Forense. Universidad Politécnica de Madrid, Escuela Universitaria de Ingeniería Técnica de Telecomunicación, Madrid, 5-6 de octubre de 2000. Madrid: EUIT de Telecomunicación. pp. 145-148.

HOLLIEN, H. (1991) The Acoustics of Crime. The New Science of Forensic Phonetics. New York: Plenum Press.

KARLSSON, I.- BAZINGER, T.- DANKOVICOVÁ, J.- JOHNSTONE, T.- LINDBERG, J.- MELIN, H.- NOLAN, F.- SCHERER, K. (1998) "Speaker verification with elicited speaking-styles in the VeriVox project", in Proceedings of RLA2C, Speaker Recognition and its Commercial and Forensic Applications. Avignon, France, April 1998. pp. 207-210.

LAVER, J.- JACK, M.- GARDINER, A. (Eds.) (1990) Proceedings of the Tutorial and Research Workshop on Speaker Characterization in Speech Technology. Edinburgh, 26-28 June 1990. Edinburgh: Centre for Speech Technology Research, University of Edinburgh - ESCA, European Speech Communication Association.

LEHISTE, I. (1973) "Vowel and speaker identification in natural and synthetic speech", Language and Speech 16: 356-364.

LINDBERG, J.- BLOMBERG, M.- MELIN, H. (1997) "CAVE - Speaker verification in bank and telecom services", Phonum 4 (Fonetik 97, Umeå University, Sweden, May 28-30, 1997): 65-68.

LLISTERRI, J. (1992) "Speaking Styles in Speech Research", ELSNET/SALT/ESCA Workshop Integrating Speech and Natural Language. University College Dublin, 15-17 July 1992. pp. 17-37.

LLISTERRI, J. (1997) "Experiències de col·laboració amb empreses en l'àmbit de les humanitats", Fòrum de la Recerca, Com fer convenis de col·laboració entre la UAB i les empreses. Què podem aprendre de l’experiència?, Universidad Autónoma de Barcelona, 22 de octubre de 1997. Universitat Autònoma de Barcelona, Vicerectorat d'Investigació - Fundació Empresa i Ciència.

LLISTERRI, J.- MARÍN, R.- de la MOTA, C.- RÍOS, A. (1995) "Factors affecting F0 peak displacement in Spanish", in PARDO, J.M.- ENRÍQUEZ, E.- ORTEGA, J.- FERREIROS, J.- MACÍAS, J.- VALVERDE, F.J. (Eds.) Eurospeech'95. 4th European Conference on Speech Communication and Technology. Madrid, Spain, 18-21 September, 1995. Vol 3, pp. 2061-2064.

MACHUCA AYUSO, M.J. (1991) " Acoustic description of the Spanish nasal consonants in continuous speech", in Actes du XIIème Congrès International des Sciences Phonétiques. 19-24 août 1991, Aix-en-Provence, France. 5 vols. Aix-en-Provence: Université de Provence, Service des Publications. Vol 2 pp. 414-417.

MACHUCA AYUSO, M.J. (1997) Las obstruyentes no continuas del español: relaciones entre las categorías fonéticas y fonológicas en habla espontánea. Tesis Doctoral. Departament de Filologia Espanyola, Universitat Autònoma de Barcelona.

MACHUCA AYUSO, M. (2000a) "Articulación y pronunciación del español", in ALCOBA, S. (Coord.) La expresión oral. Barcelona: Ariel (Ariel Practicum). pp. 35-70.

MACHUCA AYUSO, M. (2000b) "Problemas de pronunciación", in ALCOBA, S. (Coord.) La expresión oral. Barcelona: Ariel (Ariel Practicum). pp. 71-88.

MARRERO AGUIAR, V. (1990) "Estudio acústico de la aspiración en español", Revista de Filología Española LXX: 345-397.

MARRERO AGUIAR, V. (2000a) Introducción a la lingüística aplicada a fines clínicos. Madrid: UNED.

MARRERO AGUIAR, V. (2000b) "La lingüística clínica", in CARBONERO CANO, P.- CASADO VELARDE, M.- GÓMEZ MANZANO, P. (Eds.) Lengua y discurso. Estudios dedicados al profesor Vidal Lamíquiz. Madrid: Arco/Libros. Pp. 597-602.

MARRERO, V.- GIL, J.- BATTANER, E. (2003) "interSpeaker Variation in Spanish. An Experimental and Acoustic Preliminary Approach", en Proceedings of the 15th International Congress of Phonetic Sciences, Barcelona, 3-9 August 2003. pp. 703-706.

NOLAN, F. (1983) The Phonetic Basis of Speaker Recognition. Cambridge: Cambridge University Press (Cambridge Studies in Speech Science and Communication).

NOLAN, F. (1997) "Speaker Recognition and Forensic Phonetics", in HARDCASTLE, W.J. - LAVER, J. (Eds.) The Handbook of Phonetic Sciences. Oxford: Blackwell Publishers (Blackwell Handbooks in Linguistics, 5). pp. 744-767.

NOLAN, F.- SCHERER, K. (2000) "Speaker verification with elicited speaking styles in the VeriVox project", Speech Communication 31, 2-3: 121-130.

ORTEGA GARCÍA, J. (Ed.) (2000) SEAF 2000. Actas del I Congreso de la Sociedad Española de Acústica Forense. Universidad Politécnica de Madrid, Escuela Universitaria de Ingeniería Técnica de Telecomunicación, Madrid, 5-6 de octubre de 2000. Madrid: EUIT de Telecomunicación.

ORTEGA GARCÍA, J.- GONZÁLEZ RODRÍGUEZ, J. - MARRERO AGUIAR, V.- DÍAZ GÓMEZ, J.J.- GARCÍA JIMéNEZ, R.- LUCENA MOLINA, J.- SÁNCHEZ MOLERO, J.A.G. (1998a) "AHUMADA: A Large Speech Corpus in Spanish for Speaker Identification and Verification", in Proceedings of ICAPSSP-98. IEEE International Conference on Acoustics Speech and Signal Processing. May 1998. pp. 773-776.

ORTEGA GARCÍA, J.- GONZÁLEZ RODRÍGUEZ, J.- MARRERO AGUIAR, V.- DÍAZ GÓMEZ, .J.- GARCÍA JIMéNEZ, R.- LUCENA MOLINA, J.- SÁNCHEZ MOLERO, J.A.G. (1998b) "Speaker recognition-oriented 'Ahumada' large speech corpus", in RUBIO, A.- GALLARDO, N.- CASTRO, R.- TEJADA, A. (Eds.) Proceedings of the First International Conference on Language Resources and Evaluation. May 28 - 30, 1998, Granada, Spain. European Language Resources Association. Vol. II. pp. 1101 - 1106.

ORTEGA, J.- CRUZ, S.- GONZÁLEZ, J.- MARRERO, V. (1998c) "Influencia de la variabilidad del locutor en sistemas de verificación basados en GMM", in URSI-98, XIII Symposium Nacional de la Unión Científica Internacional de Radio. Pamplona, 1998. pp. 465-466.

ORTEGA GARCÍA, J.- GONZÁLEZ RODRÍGUEZ, J.- MARRERO AGUIAR, V. (2000) "AHUMADA: A large corpus in Spanish for speaker characterization and identification", Speech Communication 31, 2-3: 255-264.

ORTEGA, J.- GONZÁLEZ, J.- TAPIAS, D. (2000) "Consistencia fonética del español en sistemas de verificación de locutor sobre locuciones de corta duración tipo PIN", in ORTEGA GARCÍA, J. (Ed.) SEAF 2000. Actas del I Congreso de la Sociedad Española de Acústica Forense. Universidad Politécnica de Madrid, Escuela Universitaria de Ingeniería Técnica de Telecomunicación, Madrid, 5-6 de octubre de 2000. Madrid: EUIT de Telecomunicación. pp. 199-206.

QUILIS, A. (1999) "El reconocimiento de la voz y la investigación judicial. La experiencia del lingüista", in CARBONERO CANO, P.- CASADO VELARDE, M. GÓMEZ MANZANO, P. (Eds.) Lengua y discurso. Estudios dedicados al profesor Vidal Lamíquiz. Madrid: Arco/Libros.

RÍOS MESTRE, A. (1993) "La información lingüística en la transcripción fonética automática del español", Boletín de la Sociedad Española para el Procesamiento del Lenguaje Natural 13: 381-387.

RÍOS MESTRE, A. (1994) "El contenido fónico en el Sistema de Diccionarios Electrónicos del Español", in LLISTERRI, J.- POCH, D. (Eds) Actas del XII Congreso Nacional de la Asociación Española de Lingüística Aplicada. Nuevos Horizontes de la Lingüística Aplicada. Barcelona, 20-22 de abril de 1994. pp. 333-340.

RÍOS MESTRE, A. (1998) La transcripción fonética automática del Diccionario Electrónico de Formas Simples Flexivas del Español: un estudio fonológico en el léxico. Tesis doctoral. Departament de Filologia Espanyola, Universitat Autònoma de Barcelona. RODRÍGUEZ, L.- DOCÍO, L.- GARCÍA, C. (1998) "Panorámica de la tecnología en reconocimiento automático de locutores", in GÓMEZ GUINOVART, J.- PALOMAR, M. (Coords.) (1998) Monografía: Lengua y Tecnologías de la Información. Novática, Revista de la Asociación de Técnicos de Informática, 133 (Mayo-Junio): 36-40.

ROSENBERG, A.E. (1976) "Automatic speaker verification: a review", Proceedings of the IEEE 64, 4: 475-486.

SHUTERLAND, A.- JACK, M. (1988) "Speaker Verification", in JACK, M.- LAVER, J. (Eds.) Aspects of Speech Technology. Edinburgh: Edinburgh University Press. pp. 184-215.

STEVENS, K.N. (1972) "Sources of inter and intra-speaker variability in the acoustic properties of speech sounds", in CHARBONNEAU, R.- RIGAULT, A. (Eds.) (1972) Proceedings of the Seventh International Congress of Phonetic Sciences, The Hague, Mouton. pp. 206-232.

STEVENS, K.N.- BLUMSTEIN, S.E. (1981) "The search for invariant acoustic correlates of phonetic features", in EIMAS, P.D. - MILLER, J.L. (Eds.) Perspectives in the Study of Speech. Hillsdale: Lawrence Erlbaum Ass. pp. 1-38.

TOSI, O.I. (1975) "The Problem of Speaker Identification and Elimination", in SINGH, S. (Ed.) Measurement Procedures in Speech, Hearing and Language. Baltimore: University Park Press. pp. 399-430.

TOSI, O.I. (1979) Voice Identification Theory and Legal Applications. Baltimore: University Park Press.

van DOMMELEN, W.A. (1987) "The contribution of speech rythm and pitch to speaker identification", Language and Speech 30, 4: 325-338.

van DOMMELEN, W.A. (1990) "Acoustic parameters in human speaker recognition", Language and Speech 33,3: 259-272.


HUM2005-06980/FILO VILE II: Estudio perceptivo de la variación inter e intralocutor en español (2005-2008)
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
http://liceu.uab.cat/~joaquim/VILE.html
Last updated: 5/4/16 19:53

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported License.