Los sistemas de diálogo


Los sistemas de diálogo


SLS, Spoken Language Systems.
SDS, Spoken Dialogue Systems.
CS, Conversational systems.

Los sistemas de diálogo tienen como objetivo facilitar la interacción natural mediante el habla entre una persona y un sistema informático.

Pueden enmarcarse en el campo de la comunicación entre personas y ordenadores (HCI, Human-Computer Interaction).

“Another kind of application of the speech-based interaction is the so-called Spoken Dialogue Systems (SDSs), also called conversational systems, that can be defined as computer programs developed to provide specific services to human beings in the same way as if these services were provided by human beings, offering an interaction as natural and comfortable as possible, in which the user interacts using speech. It could be said that the main feature of these systems is their aim to behave ‘intelligently’ as if they were human operators in order to increase the speed, effectiveness and ease of obtaining specific services automatically” (p. 2).

López-Cózar, R. & Araki, M. (2005). Spoken, multilingual and multimodal dialogue systems: Development and assessment. Chichester: John Wiley & Sons.

Un sistema de diálogo ideal

Hal - S. Kubrick, 2001: A Space Odyssey (1968)

Limitaciones de los sistemas de diálogo

BASURDE, Sistema de diálogo oral en dominios restringidos

Tareas de un sistema de diálogo

esquema_dialogo.jpg
up arrow

Los sistemas de diálogo se diseñan con una estructura modular.

Cada módulo está especializado en una tarea.

modulos_dialogo.jpg
LopezCozar(2003).jpg

López-Cózar, R. (2006). Análisis y gestión del diálogo. En J. Llisterri y M. J. Machuca (Eds.), Los sistemas de diálogo. (pp. 119-52). Bellaterra - Soria: Universitat Autònoma de Barcelona - Fundación Duques de Soria.

Minker_Bennacef(2001)_1.jpg

Minker, W. y Bennacef, S. (2001). Parole et dialogue homme-machine. Paris: Éditions Eyrolles - CNRS Éditions.

Roe_Wilpon(1994).jpg

Roe, D. B. y Wilpon, J. G. (1994). Voice communication between humans and machines. Washington, DC: The National Academies Press. Consultado en https://www.nap.edu/catalog/2308/voice-communication-between-humans-and-machines

Módulo de reconocimiento del habla

Convierte la señal sonora de entrada –continua– en una representación escrita –discreta– de las palabras reconocidas.

Tecnologías del habla: Reconocimiento automático del habla (ASR, Automatic Speech Recognition).

Torres, M. I. (2006). El reconocimiento del habla. En J. Llisterri y M. J. Machuca (Eds.), Los sistemas de diálogo. (pp. 81-98). Bellaterra - Soria: Universitat Autònoma de Barcelona - Fundación Duques de Soria.

El reconocimiento automático del habla

Módulo de interpretación semántica

Determina el “significado” (contenido) de la secuencia de palabras reconocida.

Procesamiento del lenguaje natural: Comprensión del lenguaje (NLU, Natural Language Understanding).

Eh, pues mire, quería saber a qué hora sale la… el último tren, eh… hacia Barcelona, desde Madrid, el sábado

PETICIÓN
DESTINO=“Barcelona”
ORIGEN=“Madrid”
FECHA:
DÍA=“28”
HORA=“Último”

Segarra, E. (2006). La interpretación semántica. En J. Llisterri y M. J. Machuca (Eds.), Los sistemas de diálogo. (pp. 99-118). Bellaterra - Soria: Universitat Autònoma de Barcelona - Fundación Duques de Soria.

Módulo de gestión del diálogo

Gestiona la interacción entre la persona y el sistema para la realización de la tarea deseada.

Módulo central de control en un sistema de diálogo.

López-Cózar, R. (2006). Análisis y gestión del diálogo. En J. Llisterri y M. J. Machuca (Eds.), Los sistemas de diálogo. (pp. 119-52). Bellaterra - Soria: Universitat Autònoma de Barcelona - Fundación Duques de Soria.

Módulo de generación de lenguaje

Crea un enunciado bien formado a partir de la representación interna proporcionada por el sistema.

Procesamiento del lenguaje natural: Generación del lenguaje (NLG, Natural Language Generation).

PETICIÓN
DESTINO=“Barcelona”
ORIGEN=“Madrid”
Fecha:
DÍA=“28”
HORA=“Último”

El último tren sale a las 11 y 53 minutos de la noche

Lavid, J. (2006). La generación del lenguaje en los sistemas de diálogo. En J. Llisterri y M. J. Machuca (Eds.), Los sistemas de diálogo. (pp. 153-76). Bellaterra - Soria: Universitat Autònoma de Barcelona - Fundación Duques de Soria.

Módulo de conversión de texto en habla

Transforma en una señal sonora –continua– el texto creado por el módulo de generación de respuestas –discreto–.

Tecnologías del habla: Conversión de texto en habla (TTS, Tex-to-Speech Synthesis).

Bonafonte, A., Escudero, D. y Riera, M. (2006). La conversión de texto en habla. En J. Llisterri y M. J. Machuca (Eds.), Los sistemas de diálogo. (pp. 177-208). Bellaterra - Soria: Universitat Autònoma de Barcelona - Fundación Duques de Soria.

La conversión de texto en habla.

up arrow

Modelo del entorno

Modo de comunicación entre el usuario y el sistema.

Modo de comunicación: vocal, visual, auditiva o táctil.

Características específicas de cada modo: tiempo de procesamiento, disponibilidad, modalidad de entrada y salida.

Los sistemas de diálogo multimodales

Modelo de la tarea

Especificación del objetivo de la tarea y de sus características específicas.

Discriminación de subdiálogos que no corresponden a la tarea.

Modelo del usuario

Tipología de usuarios

Características personales: edad, sexo, estado físico, nivel cultural, estatus social.

Experiencia del usuario con sistemas de comunicación entre personas y ordenadores.

Komatani, K., Ueno, S., Kawahara, T. y Okuno, H. G. (2003). User modeling in spoken dialogue systems for flexible guidance generation. En Eurospeech 2003. Proceedings of the 8th European Conference on Speech Communication and Technology. (pp. 745-8). Geneva, Switzerland, September 1-4, 2003. Consultado en http://www.ei.sanken.osaka-u.ac.jp/~komatani/publications/pdf/komatani-eurosp03.pdf

Modelo del usuario.

Niveles de conocimiento del usuario a la hora de utilizar sistemas de información automática.

Conocimiento del dominio de la aplicación por parte del usuario.

Grado de urgencia en la respuesta por parte del usuario.

Diseño del diálogo.

El sistema cambia la generación de respuestas.

Cuando el sistema detecta un usuario inexperto toma la iniciativa y no utiliza nunca un diálogo abierto.

Cuando el sistema detecta que el grado de urgencia es bajo solicita confirmación a las respuestas del usuario.

Para los usuarios que desconocen la ciudad, el sistema añade más explicaciones y no proporciona información adicional sobre otras rutas alternativas que podría utilizar el usuario.

Case:[skill level:low][knowledge level:low][hastiness:low]

S-: Please, tell me your current bus stop, your destination or the specific route number
U-: Maruyama Park
S-: Let me comfirm one by one (la información se añade porque el sistema ha detectado [skill level:low])
Will you get on at Maruyama Park? (la información se añade porque se ha detectado [hastiness:low])
Please reply with yes or no (la información se añade porque el sistema ha detectado [skill level:low])
U-: Yes
S-: Where will you get off the bus?
Please specify by a bus stop name or a well-known landmark (la información se añade porque el sistema ha detectado [skill level:low])
U-: Tofukuji Temple
S-: Will you get off the bus at Tofukuji Temple?
Please reply with yes or no (la información se añade porque el sistema ha detectado [skill level:low])
U-: Yes
S-: The following buses are located (la información se añade porque el sistema ha detectado [skill level:low])
The nearest bus stop to Maruyama Park is Gion (la información se añade porque el sistema ha detectado [knowledge level:low])
Bus number 202 bound for Nishioji-kujo has departed...

Komatani, K., Ueno, S., Kawahara, T. y Okuno, H. G. (2003). User modeling in spoken dialogue systems for flexible guidance generation. In Eurospeech 2003. Proceedings of the 8th European Conference on Speech Communication and Technology. (pp. 745-8). Geneva, Switzerland, September 1-4, 2003. Consultado en http://www.ei.sanken.osaka-u.ac.jp/~komatani/publications/pdf/komatani-eurosp03.pdf

Objetivo de un modelo adaptado al usuario

Suprime la información redundante.

El sistema selecciona la estrategia de diálogo en función de las características del usuario.

Se incrementa la duración del diálogo para usuarios inexpertos, pero se agiliza el diálogo para usuarios expertos.

Bases de conocimiento

Existen bases de conocimiento asociadas a cada uno de los módulos de un sistema de diálogo.

Conocimiento prosódico en los sistemas de diálogo

Técnicas de diseño

Diseño a partir de la intuición

Determinación por parte del investigador de todas las posibles respuestas del sistema a una pregunta del usuario y de todas las posibles preguntas del usuario al sistema.

Problemas:

Utilizado en determinadas condiciones:

Diseño a partir de corpus

Estudio de la interacción natural entre personas

Perspectiva lingüística.

Implica un análisis basado en la pragmática (especialmente en el estudio de los actos de habla) y en el análisis de la conversación.

Estudio de corpus con diálogos correspondientes a la tarea que debe realizar el sistema

Corpus persona-persona

Ayuda a la definición de vocabularios y modelos lingüísticos propios de una tarea específica.

Diferencias entre la interacción humana natural y la interacción entre personas y ordenadores.

<consulta de preus>
<trucada tallada>
<operadora><donar informació><línia>És R6<\línia>, el <bitllet>bitllet senzill<\bitllet> són <preu><número>sis-centes noranta<\número>pessetes<\preu><pausa>...<\donar informació> <usuari dona><confirmació>Mhm<\confirmació>.
<operadora><donar informació>I el <bitllet>bitllet anada i tornada<\bitllet> <preu><número>mil vint-i-cinc<\número><\preu><\donar informació>.
<usuari dona><confirmació><desviació lingüística>Vale<\desviació lingüística><\confirmació>, gràcies, eh?
<operadora>A vostè. <comiat>Adéu, bon dia <\comiat>.
<usuari dona><comiat>Adéu <\comiat>.
<\consulta de preus>

Machuca, M. J., Bueno, L., Calonge, R., Estruch, M. y M. Riera. (2000). Eines de reconeixement i prototip de conversa oral. En Jornades del Centre de Referència en Enginyeria Lingüística (CREL), Institut d’Estudis Catalans, Barcelona, 4 i 5 d’abril de 2000.
Corpus persona-máquina

Diseño por simulación de una interacción entre una persona y un ordenador.

Protocolo del Mago de Oz (Wizard of Oz).

Simulación de la interacción en la que el papel del ordenador lo realiza una persona sin que lo sepa el interlocutor.

[usuari home]<salutació>Bon dia</salutació>.
[oz]Quin tipus de consulta desitja realitzar?
[usuari home]<demanar informació>Vull conèixer la durada del trajecte de <estació d’origen>Gràcia</estació d’origen> a <estació destí>Les Planes</estació destí></demanar informació>.
[oz]<confirmació explícita>M’està demanant informació de durada d’un trajecte</confirmació explícita>?
[usuari home]<confirmació>Sí</confirmació>.

Machuca, M. J., Bueno, L., Calonge, R., Estruch, M. y M. Riera. (2000). Eines de reconeixement i prototip de conversa oral. En Jornades del Centre de Referència en Enginyeria Lingüística (CREL), Institut d’Estudis Catalans, Barcelona, 4 i 5 d’abril de 2000.

Machuca, M. J. (2006). Corpus para el desarrollo de sistemas de diálogo. En J. Llisterri y M. J. Machuca (Eds.), Los sistemas de diálogo. (pp. 61-79). Bellaterra - Soria: Universitat Autònoma de Barcelona - Fundación Duques de Soria.

up arrow

Sistemas de diálogo guiados

La interacción se realiza mediante alternancias cerradas entre pregunta y respuesta.

Restricción de las iniciativas del usuario.

Máquina: Bienvenido al servicio de información de nuestra empresa. Por favor, a continuación le vamos a ofrecer una serie de opciones de entre las cuales usted deberá elegir una. Le rogamos sea conciso en sus respuestas.
Si usted desea información de tipo A, diga A o pulse 1, si usted desea consultar el tipo B, diga B o pulse 2. ¿Qué desea?
Usuario: Disculpe, le llamo para realizar una consulta sobre xxxx.
M: Por favor elija una de las opciones mencionadas. Si usted desea información de tipo A, diga A o pulse 1, si usted desea consultar el tipo B, diga B o pulse 2. ¿Qué desea?
U: Ah, bueno, pues A.
M: Correcto, un momento por favor. Diga A o pulse 1, si desea que dicha información sea de este tipo, por favor diga B o pulse 2, si desea que sea de otro tipo.
U: B
M: La información solicitada es ........ Si desea realizar otra consulta, diga SI o pulse 1.
U: No (CUELGA).

Romero, B. (2004). Coherencia en el diálogo. En Curso de Tecnologías Lingüísticas “Preguntar al ordenador: Las aplicaciones de los sistemas de diálogo”. Fundación Duques de Soria, Soria, del 12 al 16 de julio de 2004.
Gracias por llamar al Instituto Psiquiátrico Provincial:
Si usted es obsesivo-compulsivo, presione repetidamente el número 1.
Si usted es codependiente, pídale a alguien que presione el número 2 por usted.
Si usted tiene múltiples personalidades, presione el 3, 4, 5 y 6.
Si usted es paranoico, nosotros ya sabemos quien es usted, sabemos lo que hace y sabemos lo que quiere, espere en línea mientras rastreamos su llamada.
Si usted sufre de alucinaciones, presione el 7 en ese teléfono que Ud. (y solo Ud.) ve al final del cable del tubo.
Si usted es esquizofrénico, escuche cuidadosamente y una pequeña voz interior le indicará qué número presionar.
Si usted es depresivo, no importa qué número marque. Nada conseguirá sacarle de su lamentable situación.
Si usted sufre de amnesia, presione 8 y diga en voz alta su nombre, dirección, teléfonos, y el apellido de soltera de su abuela materna.
Si usted sufre de indecisión, deje su mensaje después de escuchar el tono… o antes del tono… o después del tono… o durante el tono. En todo caso, espere el tono.
Si tiene la autoestima baja, por favor cuelgue. Todos nuestros operadores están atendiendo a personas más importantes que usted.

Sistemas de diálogo cooperativos

Aceptan las interrupciones y negociaciones por parte del usuario.

Reparto equilibrado del turno de palabra.

Incorporación de mecanismos de detección de incoherencias gramaticales.

Sistemas de diálogo adaptativos

El sistema es capaz de aprender nuevas estrategias comunicativas en función del comportamiento del usuario.

La incorporación de las emociones a los sistemas de diálogo

up arrow

Dale, R. (2003). Next-generation spoken language dialog systems. Technology Trends Seminar. 14 July 2003. Sydney: Centre for Language Technology, Macquarie University.

Mejoras en la tecnología y áreas en las que se producirán avances.

Mejoras en la conversión de texto en habla

Mayor calidad de la síntesis.

Síntesis guiada por el objetivo o por la función del enunciado.

Mejoras en la asignación de pausas, en el fraseo y en la prosodia

Incorporación de emociones.

Introducción de la síntesis a partir de conceptos substituyendo la conversión de texto en habla.

Mejoras en las herramientas

Desarrollo de plantillas y de asistentes para la creación de sistemas a partir de lenguajes como VoiceXML.

VoiceXML Forum

Ayuda para incorporar las mejores prácticas en el diseño.

Romero, B. (2004). Coherencia en el diálogo. En Curso de Tecnologías Lingüísticas “Preguntar al ordenador: Las aplicaciones de los sistemas de diálogo". Fundación Duques de Soria, Soria, del 12 al 16 de julio de 2004.

Partir del conocimiento del entorno que se desea abordar.

Introducción paulatina de automatismos.

Respuesta a necesidades sociolingüísticas.

Elección del locutor.

Diseño claro, autoexplicativo y ágil.

Mismas reglas interpretativas que en la conversación entre personas.

Martín, C. (2004). Usabilidad en aplicaciones vocales. En Curso de Tecnologías Lingüísticas “Preguntar al ordenador: Las aplicaciones de los sistemas de diálogo”. Fundación Duques de Soria, Soria, del 12 al 16 de julio de 2004.

Diseño centrado en el usuario.

Diseño para la mayoría.

El sistema trabaja para el usuario.

Conocimiento de los límites.

Simplicidad.

Consistencia.

Mejoras en la identificación del locutor

Identificación a partir del habla.

Reconocimiento automático del habla adaptado al perfil del locutor.

Posibilidad de tratar varios hablantes en varias situaciones.

Mejoras en el procesamiento del lenguaje natural

Basado en principios lingüísticos más amplios (frente a las actuales correspondencias entre enunciados y patrones).

Sistemas reutilizables (frente a los actuales sistemas ad hoc).

Sistemas más robustos.

Sistemas multimodales

Integración de habla, texto y gráficos.

Integración del tacto con el habla.

Reconocimiento de expresiones faciales.

Sistemas de diálogo multimodales

Aplicaciones integradas

Reconocimiento y síntesis habla en asistentes digitales personales, vehículos, electrodomésticos, etc.

Entornos inteligentes: inteligencia ambiental.

Respuestas inteligentes

Resumen automático de información compleja procedente de diversas fuentes usando técnicas de Generación del Lenguaje Natural.

Incorporación de razonamiento y planificación de respuestas.

Sistemas multilingües

Identificación automática de la lengua del usuario.

Traducción automática del habla.

Reconocimiento de grandes vocabularios

Combinación de vocabulario ilimitado, independencia del locutor y reconocimiento del habla continua.

Tareas de dictado y de recuperación de información a partir de archivos sonoros.

Interfaces conversacionales

Necesidad de realismo frente a las expectativas creadas en los usuarios.

up arrow

Tecnologías

Tecnologías del habla

Reconocimiento automático del habla.

Conversión de texto en habla.

Procesamiento del lenguaje natural

Comprensión del lenguaje natural.

Generación de lenguaje natural.

Gestión del diálogo

Conocimiento

Pragmática

Modelado y gestión de diálogo.

Fonética

Información fonética en el reconocimiento de habla y en la conversión de texto en habla.

Morfología, léxico, semántica y sintaxis

Comprensión del lenguaje.

Generación del lenguaje.

Psicología, ergonomía y ciencia cognitiva

Interfaz con el usuario.

Multimodalidad.

Emociones.

Evaluación subjetiva.

up arrow

Los sistemas de diálogo


Los sistemas de diálogo
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Last updated: