El reconocimiento automático del habla


El reconocimiento automático del habla


El reconocimiento automático del habla

RAH, Reconocimiento automático del habla.
RAP, Reconeixement automàtic de la parla.
ASR, Automatic Speech Recognition.

../habla_texto.gif

Objetivo: obtener una representación simbólica discreta de una señal vocal continua.

El desarrollo de un sistema de reconocimiento automático del habla requiere dos fases:

Dificultades para el reconocimiento automático del habla

La variación fonética interlocutor.

La variación fonética intralocutor.

Los estilos de habla.

Las “disfluencias” en el habla espontánea.

Las características del entorno.

Características de los sistemas de reconocimiento automático del habla

Tipo de enunciados

Reconocimiento de palabras aisladas.

Reconocimiento de palabras conectadas.

Reconocimiento de palabras clave (word spotting).

Reconocimiento de habla continua.

Reconocimiento de habla espontánea.

Número de locutores

Sistemas dependientes del locutor.

Sistemas independientes del locutor.

../Windows_Training.jpg

Entrenamiento con la voz del usuario en Microsoft Windows 8.

Microsoft Corporation. (2014). How to use speech recognition. Microsoft Windows Help. Redmond, WA: Microsoft. Consultado en https://support.microsoft.com/ca-es/help/14213/windows-how-to-use-speech-recognition

Tamaño del vocabulario

Vocabulario restringido.

Vocabulario especializado.

Vocabulario general sin restricciones.

Entorno

Entorno silencioso.

Entorno con ruido predecible.

Entorno con ruido aleatorio.

Perfil del usuario

Usuario entrenado.

Usuario habitual.

Usuario ocasional.

Usuario sin experiencia.

Desarrollo histórico del reconocimiento del habla

../Juang_Rabiner_2006_historia_reconeixement.jpg

Juang, B. H. y Rabiner, L. R. (2006). Automatic speech recognition: History. En K. Brown (Ed.), Encyclopedia of language & linguistics. (pp. 806-19). Amsterdam: Elsevier. doi:10.1016/B0-08-044854-2/00906-8

up arrow

El tratamiento de la señal en el reconocimiento automático del habla

Lea, W. A. (1986). The elements of speech recognition. En G. Bristow (Ed.), Electronic speech recognition. Techniques, technology and applications. (pp. 49-129). London: Collins.

Comparación de señales continuas

Comparación entre la señal y un modelo (plantilla de referencia) establecido durante la fase del entrenamiento del sistema.

Determinación de la distancia (diferencia) entre la señal y la referencia.

Decisión sobre la similitud entre la señal y la referencia.

../etapes_reconeixement.jpg

Etapas en el reconocimiento de señales continuas.

Comparación de señales continuas parametrizadas

La señal y el modelo de referencia se representan mediante un conjunto de parámetros.

Parámetros temporales:

Parámetros frecuenciales:

Comparación de señales discretas

La señal se analiza en parámetros acústicos.

La segmentación de la señal se realiza a partir de la identificación de los parámetros acústicos que aparecen en los segmentos sucesivos.

Concatenación de los segmentos identificados para reconocer la señal de entrada.

up arrow

Estrategias para el reconocimiento automático del habla

Reconocimiento de palabras aisladas

Aplicación de técnicas de comparación de señales continuas.

Comparación entre la señal y el modelo almacenado.

../reconeixement_paraules_aillades.jpg

Reconocimiento de palabras aisladas.

Decodificación acústico-fonética

Utilización del análisis acústico de la señal para la detección de las propiedades fonéticas.

../reconeixement_fonetic.jpg

IEC. (s.d.). Speech-Enabled interactive voice response systems. Web ProForum Tutorials. The International Engineering Consortium.

Reconocimiento de habla continua

Utilización de técnicas de descodificación acústico-fonética.

Requiere la definición de un “modelo de lenguaje”: modelo estadístico que refleja la probabilidad de aparición de una palabra en función de las palabras anteriores.

Para la creación del modelo de lenguaje se utilizan n-gramas extraídos de un corpus textual.

Requiere la creación de un diccionario (lexicon) con la representación fonética del léxico.

Utilización de unidades de reconocimiento: difonos (difonemas).

../speech_recognition_process.gif

Funcionamiento de un sistema de reconocimiento automático del habla.

Grabianowski, E. (2006). How speech recognition works. HowStuffWorks.com. Consultado en http://electronics.howstuffworks.com/gadgets/high-tech-gadgets/speech-recognition.htm

../reconocimiento_modulos.jpg

Esquema básico de un sistema de reconocimiento automático del habla.

../Rabiner_Huang_2006_reconeixement_moduls.jpg

Módulos de un sistema de reconocimiento automático del habla.

Rabiner, L. R. y Juang, B. H. (2006). Speech recognition: Statistical methods. En K. Brown (Ed.), Encyclopedia of language & linguistics. (pp. 1-18). Amsterdam: Elsevier. doi:10.1016/B0-08-044854-2/00907-X

../Marino_model_reconeixement_general.jpg

Modelo de reconocimiento de habla continua.

Mariño, J. B. (s.d.). Reconocimiento de habla fluida (I). Curso sobre tecnologías del habla. Grup de Tractament de la Parla, Departament de Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya.

../Marino_model_reconeixement_1.jpg

Modelo de reconocimiento de habla continua: procesador acústico.

Mariño, J. B. (s.d.). Reconocimiento de habla fluida (I). Curso sobre tecnologías del habla. Grup de Tractament de la Parla, Departament de Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya.

../Marino_model_reconeixement_2.jpg

Modelo de reconocimiento de habla continua: algoritmo de reconocimiento.

Mariño, J. B. (s.d.). Reconocimiento de habla fluida (I). Curso sobre tecnologías del habla. Grup de Tractament de la Parla, Departament de Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya.

../speech_recognition_Markov.jpg

Versión simplificada de un modelo de Markov para el reconocimiento de unidades.

Grabianowski, E. (2006). How speech recognition works. HowStuffWorks.com. Consultado en http://electronics.howstuffworks.com/gadgets/high-tech-gadgets/speech-recognition.htm

Powell, V. (2014). Markov chains explained visually. Berkeley, CA: Setosa.io. Consultado en http://setosa.io/ev/markov-chains/

../Marino_model_reconeixement_3.jpg

Modelo de reconocimiento de habla continua: algoritmo de comprensión.

Mariño, J. B. (s.d.). Reconocimiento de habla fluida (I). Curso sobre tecnologías del habla. Grup de Tractament de la Parla, Departament de Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya.

up arrow

Ámbitos relacionados con el reconocimiento automático del habla

Comprensión del habla

SLU, Spoken Language Understanding

En la comprensión del habla se requiere la integración de un sistema de reconocimiento automático del habla con un procedimiento de comprensión del lenguaje natural, de modo que el reconocedor puede aportar, por ejemplo, información prosódica que no se recoge en el texto escrito y el sistema de comprensión proporciona la información sintáctica y semántica.

Reconocimiento del hablante

Identificación y verificación del locutor

Identificación automática de la lengua

ALI, Automatic Language Identification.

Determinación automática de la lengua utilizada por un determinado hablante.

up arrow

El reconocimiento automático del habla


El reconocimiento automático del habla
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Last updated: