Las tecnologías del habla


Las tecnologías del habla


El ámbito de las tecnologías del habla

Tecnologías del habla.
Tecnologies de la parla.
Speech technologies.

El objetivo de las tecnologías del habla es facilitar la comunicación oral entre personas y sistemas informáticos.

“The domain of speech technology is the development of automatic systems to allow human users and computers to interact directly through the medium of speech” (p. 1).

Laver, J. (1987). New horizons in European speech technology. Report on the ESPRIT workshop on speech technology. Aarhus, Denmark, 21-22 may 1987. En Proceedings and following workshop on speech technology. Status on technology and programmes worldwide. Jutland Telephone, Denmark. May 20, 1987.
“La tecnologia de la parla estudia com utilitzar la veu, la forma més habitual de comunicar-nos entre persones, per facilitar l’ús i la interacció amb les màquines, ja sigui per si sola o en combinació amb altres dispositius com el teclat o les pantalles tàctils” (p. 3).

Rodríguez Fonollosa, J. A. (2010). La tecnologia de la parla en català. Avenços i reptes. Llengua i ús. Revista tècnica de política lingüística, 48, 57-64. Consultado en http://www.raco.cat/index.php/LlenguaUs/article/view/234256

Salida vocal

Síntesis del habla.

CTH, Conversión de texto en habla.
CTP, Conversió de text en parla.
TTS, Text-to-Speech Synthesis.

../../synthesis/tts_general/texto_habla.gif

La conversión de texto en habla

Entrada vocal

RAH, Reconocimiento automático del habla.
RAP, Reconeixement automàtic de la parla.
ASR, Automatic Speech Recognition.

../../recognition/habla_texto.gif

El reconocimiento automático del habla

Interacción vocal

Sistema de diálogo, sistema conversacional.
Sistema de diàleg, sistema conversacional.
SLS, Spoken Language System; SDS, Spoken Dialogue System; CS, Conversational System.

../../dialogue/dialogo_general/esquema_dialogo.jpg

Los sistemas de diálogo

Las tecnologías del habla

up arrow

El desarrollo histórico de las tecnologías del habla

Desarrollo de las tecnologías del habla en AT&T.

Leta, A. (26/09/2006). AT&T voice technology commercial (2006) [Archivo de video]. Consultado en https://www.youtube.com/watch?v=IEp6ca9Ppks

1960

Control digital de la síntesis a partir de parámetros fonéticos.

Análisis y síntesis por predicción lineal.

1970

Sistemas de conversión de texto en habla.

Reconocimiento de palabras aisladas.

Sistemas de verificación de locutor.

Nuevas técnicas de codificación del habla.

1980

Reconocimiento de habla continua.

1990

Productos de síntesis y reconocimiento multilingües.

Conversores de texto en habla naturales y flexibles.

Reconocimiento de grandes vocabularios.

2000

Portales de voz.

Sistemas de diálogo multimodales.

Búsqueda y recuperación de información en bases de datos sonoras.

Integración en la web.

Fant, G. (2005). Speech technology and research: Retrospect and prospect. En Interspeech 2005 - Eurospeech. Proceedings of the 9th European Conference on Speech Communication and Technology. Lisbon, Portugal. September 4-8, 2005. Consultado en http://www.sarasinstitute.org/Pages/Papers/Fant_Interspeech2005.html

Fant
Gunnar Fant (1919-2009)

1925-1945: Época de la electrónica.

1945-1965: La etapa de los pioneros.

1965-1985: Conocimientos básicos y desarrollo de tecnologías.

1985-2005: Métodos estadísticos y grandes bases de datos.

Fant, G. (2004). Phonetics and phonology in the last 50 years. En From sound to sense: 50+ years of discoveries in speech communication. Massachusetts Institute of Technology, Cambridge, MA, 11-13 June 2004. Consultado en http://www.rle.mit.edu/soundtosense/conference/pdfs/invitedspeakers/Fant%20PAPER.pdf

Fant
Gunnar Fant (1919-2009)

1950-1965

Fonética acústica y rasgos distintivos.

Codificación y compresión del habla.

Inicios de la síntesis del habla.

1965-1980

Tratamiento digital del habla.

Conversión de texto en habla.

Reconocimiento automático del habla.

1980-1995

Modelos de Markov y redes neuronales.

Conversión de texto en habla.

Reconocimiento automático del habla.

Modelos articulatorios.

1995-2004

Grandes bases de datos.

Traducción automática del habla.

Síntesis multimodal.

Modelos prosódicos.

up arrow
Las tecnologías del habla
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Last updated: