Los sistemas de diálogo multimodales


Multimodalidad en la comunicación persona-máquina

Los sistemas de diálogo


Los sistemas de diálogo multimodales

Integración del habla con otras modalidades de interacción persona-máquina.

Varios dispositivos de entrada: el habla, el teclado, el ratón, el micrófono, la cámara, una pantalla, un PDA, un teléfono inteligente, etc.

Diversos canales de salida para proporcionar información: voz, texto, gráficos, imágenes.

El concepto de multimodalidad

Multimodalidad asimétrica.

Multimodalidad simétrica.

Recogida de corpus para el diseño de diálogos multimodales

Canal oral: micrófonos.

Canal visual: cámaras de vídeo.

Metodología para la recogida de datos utilizada en el proyecto SmartKom

Protocolo del Mago de Oz.


Se graban sesiones de 4,5 minutos.

Se recoge la información sobre el canal oral utilizando tres micrófonos: un micrófono direccional, un panel de micrófonos con cuatro canales para reducir ruido, un micrófono con auriculares.

Se recoge la información sobre el canal visual utilizando diferentes cámaras de vídeo: dos cámaras para recoger la expresión facial y el perfil del sujeto, una cámara infrarroja para capturar los gestos y una cámara para grabar la salida gráfica del teclado.
Smartkom.jpg

Metodología para la recogida de datos utilizada en el proyecto SmartKom

Wahlster, W. (2006). SmartKom: Foundations of multimodal dialogue systems. New York: Springer.

Objetivos de la recogida de corpus para el diseño de diálogos multimodales

Proporciona las bases lingüísticas de la interacción oral.

Parámetros de análisis para integrar gesto y habla.

Proporciona material de entrenamiento para que el reconocedor interprete los elementos no verbales que utiliza el usuario.

Anotación de corpus multimodales

Transcripción ortográfica.

La transcripción ortográfica de corpus orales

Transcripción fonética segmental.

La representación fonética segmental de corpus orales

Transcripción prosódica.

La representación fonética suprasegmental de corpus orales

Anotación lingüística.

Anotación pragmática.

Anotación de expresiones faciales.

Anotación de gestos.

Anotación de emociones.

Propuestas para la anotación de corpus multimodales

ISLE, International Standards for Language Engineering - NIMM, Natural Interaction and MultiModality working group (2000 - 2002)

Interacción natural y multimodalidad.

Creación de recursos para el análisis de la interacción multimodal.

Intento de estandarización en la anotación de diálogos.

Anotación de fenómenos que aparecen en el discurso.

Propuestas de esquemas de codificación de las expresiones faciales y de los gestos.

Propuestas para anotar información prosódica relacionada con la información gestual.

Dybkjaer, L., Berman, S., Kipp, M., Wegener Olsen, M., Pirrelli, V., Reithinger, N., y Soria, C. (2001). Survey of existing tools, standards and user needs for annotation of natural interaction and multimodal data [Deliverable D11.1. Final Report. January 2001]. ISLE Natural Interactivity and Multimodality Working Group. Consultado en http://spokendialogue.dk/Publications/2001f/D11.1-14.2.2001-F.pdf

Dybkjaer, L., Berman, S., Bernsen, N. O., Carletta, J., Heid, U., y Llisterri, J. (2001). Requirements and specifications for a tool in support of annotation of natural interaction and multimodal data [Deliverable D11.2. Final Report. July 2001]. ISLE Natural Interactivity and Modality Working Group. Consultado en http://spokendialogue.dk/Publications/2001e/D11.2-ISLE-29.7.2001-F.pdf

Wegener Knudsen, M., Martin, J. C., Dybkjaer, L., Machuca, M. J., Bernsen, N. O., Carletta, J., . . . Wittenburg, P. (2002). Survey of multimodal annotation schemes and best practice [Deliverable D9.1. Final Report. February 2002] . ISLE Natural Interactivity and Multimodality Working Group. Consultado en http://spokendialogue.dk/Publications/2002o/D9.1-7.3.2002-F.pdf

Wegener Knudsen, M., Bernsen, N., Dybkjaer, L., Hansen, T., Mapelli, V., Martin, J. C., . . . Wittenburg, P. (2003). Guidelines for the creation of NIMM data resources [Deliverable 8.2. Final Report. February 2003]. ISLE Natural Interactivity and Multimodality Working Group. Consultado en http://spokendialogue.dk/Publications/2003g/D8.2-17.2.2003-F.pdf

Dybkjaer, L., Bernsen, N. O., Wegener Knudsen, M., Llisterri, J., Machuca, M. J., Martin, J. C., . . . Wittenburg, P. (2003). Guidelines for the creation of NIMM annotation schemes [Deliverable D9.2. Final Report. 14 February 2003]. ISLE Natural Interactivity and Multimodality Working Group. Consultado en http://spokendialogue.dk/Publications/2003f/D9.2-13.2.2003-F.pdf

Herramientas de anotación y análisis de corpus multimodales

NITE, Natural Interactivity Tools Engineering, 2001-2003

NITE, Natural Interactivity Tools Engineering

Elan

ELAN, EUDICO Linguistic Annotator, Max Plank Institute for Psycholinguistics.

Anvil

Anvil, M. Kipp, DFKI, German Research Center for Artificial Intelligence.

Transana

Transana, Wisconsin University.

Análisis de corpus multimodales

Relación entre gesto y habla.

Parámetros acústicos relacionados con movimientos faciales.

Parámetros acústicos relacionados con el movimiento de las extremidades.

Sincronización entre el movimiento de los brazos y los gestos faciales.

Estudio desde una perspectiva multicultural.

Fenómenos lingüísticos relacionados con el gesto

Unidades prosódicas:

Fenómenos prosódicos:

Correlatos prosódicos:

gestos_prosodia_1.jpg
gestos_prosodia_2.jpg

Locutores virtuales

Animación de movimientos faciales.

Sincronizada con habla sintetizada.

Locutor virtual en catalán

Departament de Tecnologies Media, Enginyeria La Salle, Universitat Ramon Llull

Asistentes virtuales interactivos para páginas web y teléfonos móviles.

Sonia, asistente digital interactivo para teléfonos móviles.

Multimodalidad en la comunicación persona-máquina

Los sistemas de diálogo


Los sistemas de diálogo multimodales
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Last updated: