Los módulos lingüísticos en un conversor de texto en habla: el módulo prosódico


El conocimiento prosódico en los sistemas de conversión de texto en habla


El módulo prosódico

El módulo prosódico de un conversor de texto en habla tiene como objetivo especificar:

up arrow

Asignación de duración segmental

La asignación de duración requiere un modelo de duración segmental que considere:

Factores que determinan la duración segmental:

El modelo de duración de Klatt (1979)

Klatt, D. H. (1979). Synthesis by rule of segmental durations in English sentences. En B. Lindblom y S. Öhman (Eds.), Frontiers in speech communication research. (pp. 287-300). New York: Academic Press.

Klatt
Dennis H. Klatt (1938-1988)
(Fuente: O. Engstrand, Phonetic portrait gallery, Department of Linguistics, Stockholm University)

DUR = [(INDUR-MINDUR)*PRCNT]/100+MINDUR

INDUR: duración intrínseca del segmento (en ms.) calculada a partir de un corpus en el que los segmentos se analizan en frases marco.

MINDUR: duración mínima del segmento si está acentuado.

PRCNT: porcentaje de reducción de la duración del segmento, determinado por regla.

Elementos que determinan el porcentaje de reducción de los segmentos:

La asignación de duración segmental en los sistemas de conversión de texto en habla

up arrow

Asignación de intensidad segmental

En la asignación de intensidad se determina la intensidad de cada segmento en función de las variables que afectan a este parámetro.

Un modelo de intensidad vocálica para el castellano y el catalán

Blecua Falgueras, B. y Acín, V. (1995). Propuesta de un modelo de intensidad vocálica del castellano y el catalán aplicable a un sistema de conversión de texto a habla. Procesamiento del Lenguaje Natural, 17, 257-271. Consultado en http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/3810/2265

Basado en el análisis de intensidad vocálica en un corpus de frases leídas.

Modelo en árbol que introduce una serie de factores que modifican la intensidad vocálica:

La asignación de intensidad en los sistemas de conversión de texto en habla

up arrow

Asignación de pausas

Inserción de las pausas marcadas ortográficamente en el texto.

Inserción las pausas no marcadas ortográficamente en el texto.

Marcado de pausas ortográficas en un corpus real.

1629 pausas en total.

1260 pausas marcadas ortográficamente.

578 con punto; 527 con coma; 17 con punto y coma; 51 con dos puntos; 63 con signo de interrogación; 22 con signo de admiración; 2 con puntos suspensivos.

369 pausas no marcadas ortográficamente.

Determinación de la duración de la pausa.

Texto sintetizado con pausas (Telefónica I+D, Amigo v. 2.6).

Texto sintetizado sin pausas.

Los elementos suprasegmentales: las pausas

Un modelo de duración y asignación de pausas para el español

Puigví, D., Jiménez, D. y Fernández, J. M. (1994). Parametrización de las pausas ortográficas en castellano. Aplicación a un conversor de texto en habla. Procesamiento del Lenguaje Natural, 15. Consultado en http://liceu.uab.cat/publicacions/Puigvi_Jimenez_Fernandez_94_Pausas_Sintesis_Castellano.pdf

Basado en al análisis de un corpus de lectura.

Determinación de la duración de las pausas marcadas mediante signos de puntuación.

Factores fonéticos y sintácticos que determinan la aparición de pausas no marcadas por signos de puntuación.

Determinación de la duración de las pausas no marcadas por signos de puntuación.

La asignación de pausas en los sistemas de conversión de texto en habla

up arrow

Asignación de la curva melódica

En la asignación de la curva melódica se definen los patrones melódicos de la realización de cada enunciado, configurados como una sucesión de valores de frecuencia fundamental (f0).

En algunos sistemas de conversión de texto en habla la asignación de la curva melódica puede utilizar un análisis previo de la estructura entonativa de los enunciados (prosodic parsing).

Texto sintetizado con asignación de melodía (Telefónica I+D, Amigo v. 2.6).

Texto sintetizado sin variaciones melódicas.

Los elementos suprasegmentales: la melodía y la entonación

Los elementos suprasegmentales: el acento

Un modelo de generación de patrones melódicos para el español

Garrido, J. M. (1996). Modelling Spanish intonation for text-to-speech applications. Tesis doctoral, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona. Consultado en http://www.tdx.cat/handle/10803/4885

Garrido, J. M. (2001). La estructura de las curvas melódicas del español: Propuesta de modelización. Lingüística Española Actual, 23(2), 173-2009.

Desarrollado a partir del análisis de un corpus de textos leídos.

Basado en la estilización, la declinación y la estructura jerárquica de las unidades prosódicas

Estilización.

Estilitzacio_Ramon_llego_en_avion.jpg

Reducción de la curva melódica del enunciado “Ramón llegó en avión”, pronunciado por un locutor masculino, a una serie de puntos de inflexión relevantes.

Garrido, J. M. (2001). La estructura de las curvas melódicas del español: Propuesta de modelización. Lingüística Española Actual, 23(2), 173-2009.

Declinación.

Declinacio_La_reina_del_baile_bailaba_la_rumba_de_moda.jpg

Contorno melódico correspondiente a la oración “La reina del baile bailaba la rumba de moda” (locutor masculino), representado por medio de líneas de referencia.

Garrido, J. M. (2001). La estructura de las curvas melódicas del español: Propuesta de modelización. Lingüística Española Actual, 23(2), 173-2009.

Estructura jerárquica.

Estructura_jerarquica_Ramon_llego_en_avion.jpg

Descomposición en patrones melódicos superpuestos de la curva melódica del enunciado “Ramón llegó en avión”, pronunciada por un locutor masculino.

Garrido, J. M. (2001). La estructura de las curvas melódicas del español: Propuesta de modelización. Lingüística Española Actual, 23(2), 173-2009.

Modelo fonético por niveles

Árbol prosódico inicial.

Arbre_prosodic_inicial.jpg

Garrido, J. M. (2001). La estructura de las curvas melódicas del español: Propuesta de modelización. Lingüística Española Actual, 23(2), 173-2009.

Nivel global.

Nivell_global.jpg

Líneas de referencia: líneas continuas de trazo grueso correspondientes a los tres grupos fónicos de la oración. Líneas de supradeclinación: líneas discontinuas de distinto grosor. Curva estilizada real: puntos unidos mediante líneas rectas.

Garrido, J. M. (2001). La estructura de las curvas melódicas del español: Propuesta de modelización. Lingüística Española Actual, 23(2), 173-2009.

Nivel local.

Nivell_local.jpg

Líneas de referencia: líneas continuas. Puntos de inflexión de la curva estilizada real: puntos de color claro. Puntos de inflexión de la curva estilizada generada por el modelo: puntos de color oscuro.

Garrido, J. M. (2001). La estructura de las curvas melódicas del español: Propuesta de modelización. Lingüística Española Actual, 23(2), 173-2009.

Modelo entonativo de un conversor de texto en habla en español: el sistema Actor de Loquendo

Garrido, J. M., Ortín, I., Quazza, S., Salza, P. L. y Mancini, F. (2000). Desarrollo de un módulo de asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®. Procesamiento del Lenguaje Natural, 26, 183-190. Consultado en http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/3445/1933

Las unidades de síntesis son fragmentos largos de señal extraída del contexto prosódico apropiado.

La f0 de la señal original se mantiene inalterada.

Adecuado para la “prosodia enunciativa neutra” representada en la base de datos acústica.

Necesidad de un módulo de cálculo de f0 para los enunciados interrogativos.

Estilización de la curva melódica en cuatro niveles tonales:

Estilitzacio_de_la_corba_melodica.jpg

Curva melódica del enunciado “¿Conoces el contenido del artículo de la Constitución?” en la que aparecen los puntos de inflexión considerados durante el análisis.

Garrido, J. M., Ortín, I., Quazza, S., Salza, P. L. y Mancini, F. (2000). Desarrollo de un módulo de asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®. Procesamiento del Lenguaje Natural, 26, 183-190. Consultado en http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/3445/1933

Assignacio_de_nivells_tonals.jpg

Curva melódica del segmento “Sabes cuando pasan…” perteneciente al enunciado “¿Sabes cuándo pasan a recoger los muebles viejos este mes?” en la que aparecen representados los puntos M, P+, V y P.

Garrido, J. M., Ortín, I., Quazza, S., Salza, P. L. y Mancini, F. (2000). Desarrollo de un módulo de asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®. Procesamiento del Lenguaje Natural, 26, 183-190. Consultado en http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/3445/1933

Estructura jerárquica de los patrones melódicos

Patrones locales.

En el ámbito del grupo acentual.

Patrons_locals.jpg

Curva melódica del enunciado “¿Conoces el contenido del artículo de la Constitución?” en el que aparecen estilizados el patrón inicial (1), dos intermedios (2,3) y el patrón final (4).

Garrido, J. M., Ortín, I., Quazza, S., Salza, P. L. y Mancini, F. (2000). Desarrollo de un módulo de asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®. Procesamiento del Lenguaje Natural, 26, 183-190. Consultado en http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/3445/1933

Patrones globales.

En el ámbito del grupo entonativo

Grups_entonatius.jpg

Curva melódica correspondiente al enunciado “El acto de la firma transcurrió tal y como habían pactado ambas delegaciones la víspera” pronunciado por un locutor femenino. Sobre cada grupo entonativo se han dibujado las líneas de referencia correspondientes.

Garrido, J. M., Ortín, I., Quazza, S., Salza, P. L. y Mancini, F. (2000). Desarrollo de un módulo de asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®. Procesamiento del Lenguaje Natural, 26, 183-190. Consultado en http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/3445/1933

En el ámbito de la oración.

Patrons_globals.jpg

Curva melódica del enunciado “El acto de la firma transcurrió tal y como habían pactado ambas delegaciones la víspera”, pronunciada por un locutor masculino. Las líneas rectas representan las ‘líneas de referencia’ correspondientes a los puntos P (superior) y V (inferior) de la curva melódica.

Garrido, J. M., Ortín, I., Quazza, S., Salza, P. L. y Mancini, F. (2000). Desarrollo de un módulo de asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®. Procesamiento del Lenguaje Natural, 26, 183-190. Consultado en http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/3445/1933

Segmentación prosódica

Segmentación en unidades prosódicas jerarquizadas.

Grupo acentual:

Grupo tónico:

Grupo entonativo:

Evaluación del modelo

Prueba de percepción con un conjunto de estímulos sintetizados.

24 pares formados por estímulo natural - estímulo sintetizado.

10 jueces expertos y 20 no expertos.

Evaluación del grado de semejanza entre la curva melódica natural y la sintetizada en una escala del 1 al 4.

Tipo de interrogativa
Locutor Absoluta Parcial Total
Experto 2,6 1,85 2,22
No experto 3,23 2,3 2,76
Total 3,02 2,15 2,58

La asignación de entonación en los sistemas de conversión de texto en habla

up arrow

El conocimiento prosódico en los sistemas de conversión de texto en habla


Los módulos lingüísticos en un conversor de texto en habla: el módulo prosódico
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Last updated: