La síntesis del habla
Ejercicios



La síntesis por formantes

Antes de empezar a realizar los ejercicios que se proponen a continuación, asegúrate de que has comprendido los conceptos siguientes:

El modelo de la fuente y el filtro en la síntesis del habla

Las características acústicas de los sonidos del habla

El modelo de la fuente y el filtro en la síntesis de las vocales

Características acústicas de las vocales: la estructura formántica

La creación de estímulos sintetizados mediante el modelo de síntesis de Klatt

En los ejercicios que se presentan a continuación se utiliza la interfaz en la web del sintetizador de Klatt desarrollada por H. Timothy Bunnell (Speech Research Laboratory, A.I. duPont Hospital for Children and the University of Delaware).

Bunnell, H. T. (1999). Synthesis of speech. Wilmington, DE: Speech Research Lab, A.I duPont Hospital for Children and the University of Delaware. Consultado en http://www.asel.udel.edu/speech/tutorials/synthesis/index.html

Antes de empezar a realizar los ejercicios, consulta el listado de parámetros que pueden modificarse en el sintetizador de Klatt, que se encuentra en Bunnell (1999) y que se reproduce en:
El sintetizador por formantes de Klatt - Web Interface to the Klatt Synthesizer.

Bunnell, H. T. (1999). GENSYN - Generate synthesis parameters. Wilmington, DE: Speech Research Lab, A.I duPont Hospital for Children and the University of Delaware. Consultado en http://www.asel.udel.edu/speech/tutorials/synthesis/gensyn.htm

Síntesis de vocales mediante el modelo de Klatt

  1. Conéctate a la página Simplified vowel synthesis interface y lee las indicaciones sobre la interfaz:
  2. Bunnell, H. T. (1999). Simplified vowel synthesis interface. Wilmington, DE: Speech Research Lab, A.I duPont Hospital for Children and the University of Delaware. Consultado en http://www.asel.udel.edu/speech/tutorials/synthesis/vowels.html

  3. Asegúrate de que comprendes el significado de los parámetros que utilizarás para la síntesis.
  4. ../klatt/Bunnell_Vocales.jpg

    Bunnell, H. T. (1999). Simplified vowel synthesis interface. Wilmington, DE: Speech Research Lab, A.I duPont Hospital for Children and the University of Delaware. Consultado en http://www.asel.udel.edu/speech/tutorials/synthesis/vowels.html

    Si es necesario, documéntate sobre las características acústicas de las vocales.

    Las características acústicas de las vocales

  5. Realiza las siguientes modificaciones para una misma vocal -puedes empezar utilizando los valores de los formantes predeterminados en la interfaz- y observa el resultado en la señal sonora sintetizada:
  6. Ajusta la frecuencia de los tres primeros formantes (F1, F2, F3) para obtener las vocales del español. Puedes utilizar los datos que se presentan en Quilis y Esgueva (1983,) reproducidos en el documento que encontrarás en:
    Las características acústicas de los elementos segmentales: características acústicas de las vocales - Frecuencia de los formantes.
  7. En el caso del primer y del segundo formante, los valores que deben emplearse son los correspondientes a los valores medios entre la realización tónica y la realización átona, presentados entre / /. El ejercicio debe realizarse con los valores propios de las voces masculinas o de las voces femeninas.

    Quilis, A. y Esgueva, M. (1983). Realización de los fonemas vocálicos españoles en posición fonética normal. En M. Esgueva y M. Cantarero (Eds.), Estudios de fonética I. (pp. 137-252). Madrid: Consejo Superior de Investigaciones Científicas.

  8. Partiendo de los valores de las vocales del español o de los valores por defecto que se encuentran en la interfaz, ajusta la frecuencia de los tres primeros formantes para obtener vocales en otras lenguas que conozcas.

Síntesis de sílabas consonante-vocal mediante el modelo de Klatt

  1. Conéctate a la página Low level synthesis interface y lee las indicaciones sobre la interfaz:
  2. Bunnell, H. T. (1999). Low level synthesis interface. Wilmington, DE: Speech Research Lab, A.I duPont Hospital for Children and the University of Delaware. Consultado en http://www.asel.udel.edu/speech/tutorials/synthesis/Klattx.html

  3. Asegúrate de que comprendes la función de cada una de las tres partes de la interfaz (VAR/CONST Status, Default values y Synthesis Script) y de los parámetros que utilizarás para la síntesis.
  4. ../klatt/Bunnell_Var_Const_Status.jpg

    Bunnell, H. T. (1999). Low level synthesis interface. Wilmington, DE: Speech Research Lab, A.I duPont Hospital for Children and the University of Delaware. Consultado en http://www.asel.udel.edu/speech/tutorials/synthesis/Klattx.html

    ../klatt/Bunnell_Default_Values.jpg

    Bunnell, H. T. (1999). Low level synthesis interface. Wilmington, DE: Speech Research Lab, A.I duPont Hospital for Children and the University of Delaware. Consultado en http://www.asel.udel.edu/speech/tutorials/synthesis/Klattx.html

    ../klatt/Bunnell_Synthesis_Script.jpg

    Bunnell, H. T. (1999). Low level synthesis interface. Wilmington, DE: Speech Research Lab, A.I duPont Hospital for Children and the University of Delaware. Consultado en http://www.asel.udel.edu/speech/tutorials/synthesis/Klattx.html

  5. Realiza la síntesis de la sílaba [ba] utilizando los valores por defecto que se encuentran en la interfaz.
  6. Guarda la señal sonora en tu ordenador y analízala mediante el programa Praat para observar la evolución temporal de la sonoridad y la trayectoria de los formantes.
  7. Boersma, P. y Weenink, D. (2017). Praat: Doing phonetics by computer [Programa informático]. Amsterdam: Department of Language and Literature, University of Amsterdam. Consultado en http://www.praat.org/

    Si es necesario, documéntate sobre las características acústicas de las consonantes oclusivas.

    Las características acústicas de las consonantes oclusivas

  8. Edita la información que aparece en la ventana Synthesis Script para sintetizar las sílabas [bi] y [pa].
  9. TIME = 000; F1=400; F2=1000; F3=2000; F0=120; AV=72
    TIME + 20; F1=650; F2=1200; F3=2500; AV=72
    TIME + 20; F1=750; F2=1150; F3=2500; AV=72
    TIME = 400; F1=750; F2=1000; F3=2300; F0=90; AV=72
    TIME + 30; AV=0
    END

    Script para la síntesis de [ba].

    TIME = 000 y TIME = 400 indican el punto de inicio y de final de la sílaba, que dura 400 ms.

    TIME + 20 indica que los valores de los parámetros cambian 20 ms después del inicio de la sílaba.

    Puedes guardar los resultados en tu ordenador y observar, mediante el programa Praat, los resultados de las modificaciones en los valores de los parámetros acústicos.

La creación de estímulos sintetizados mediante Praat

  1. Descarga la versión del programa Praat adecuada para tu sistema operativo e instálala en tu ordenador:
  2. Boersma, P. y Weenink, D. (2017). Praat: Doing phonetics by computer [Programa informático]. Amsterdam: Department of Language and Literature, University of Amsterdam. Consultado en http://www.praat.org/

  3. Graba tu propia realización de una vocal aislada, realiza un espectrograma mediante Praat y obtén los valores siguientes:
  4. Anótalos para continuar con el ejercicio.

    Si es necesario, documéntate sobre las características acústicas de las vocales.

    Las características acústicas de las vocales

  5. Consulta el documento La creación de estímulos sintetizados mediante Praat.
  6. Siguiendo las instrucciones del documento, crea una fuente y un filtro para sintetizar una vocal con valores constantes de amplitud, frecuencia fundamental y frecuencia de los formantes, utilizando los valores obtenidos en tu análisis.
  7. Guarda el estímulo sintetizado y, mediante Praat, compáralo con tu realización natural de la vocal.

La conversión de texto en habla

En los ejercicios que se presentan a continuación se utiliza la demostración interactiva en la red del sistema de conversión de texto en habla de Loquendo (Nuance).

Loquendo (2011). Interactive TTS Demo. Torino: Loquendo - Nuance. Consultado en http://www.loquendo.com/en/demo-center/interactive-tts-demo/

La demostración permite:

../tts_systems/Loquendo_TTS_Demo.jpg

Loquendo (2011). Interactive Loquendo TTS Demo. Torino: Loquendo - Nuance. Consultado en http://www.nuance.com/for-business/by-solution/customer-service-solutions/solutions-services/inbound-solutions/loquendo-small-business-bundle/interactive-tts-demo/index.htm

Puedes realizar el mismo ejercicio con las siguientes demostraciones en línea:

Acapela (2011). Acapela Text to Speech Demo. Mons - Labège - Solna: Acapela Group. Consultado en http://www.acapela-group.com/voices/demo/

AT&T Labs (2001). AT&T Natural Voices. Text-to-Speech Demo. Florham Park, NJ: AT&T Labs. Consultado en http://www2.research.att.com/~ttsweb/tts/demo.php

Verbio (2012). Demostración TTS Online. Barcelona: Verbio Technologies. Consultado en http://www.verbio.com/webverbio3/index.php/es/demo-tts-online.html

El procesamiento previo del texto

  1. Conéctate a la demostración interactiva de Loquendo en la red y selecciona una voz en tu lengua o en una lengua que conozcas.
  2. Loquendo (2011). Interactive TTS Demo. Torino: Loquendo - Nuance.
    http://www.loquendo.com/en/demo-center/interactive-tts-demo/

  3. Crea un texto o un conjunto de frases (500 caracteres como máximo) en el que aparezcan ejemplos de los fenómenos que debería tratar adecuadamente el módulo de procesamiento previo del texto de un sistema de conversión de texto en habla.
  4. Escucha el resultado de la síntesis, determina los errores cometidos por el sistema y establece una clasificación de los tipos de error encontrados.
  5. Selecciona un tipo de error y crea un nuevo corpus que permita un estudio más sistemático para establecer, si es posible, las condiciones en las que se produce el error.

El procesamiento previo del texto en la conversión de texto en habla

La transcripción fonética automática

  1. Conéctate a la demostración interactiva de Loquendo en la red y selecciona una voz en tu lengua o en una lengua que conozcas.
  2. Loquendo (2011). Interactive TTS Demo. Torino: Loquendo - Nuance.
    http://www.loquendo.com/en/demo-center/interactive-tts-demo/

  3. Crea un texto o un conjunto de frases (500 caracteres como máximo) en el que aparezcan ejemplos de los fenómenos que debería tratar adecuadamente el módulo de transcripción fonética automática de un sistema de conversión de texto en habla.
  4. Escucha el resultado de la síntesis, determina los errores cometidos por el sistema y establece una clasificación de los tipos de error encontrados.
  5. Selecciona un tipo de error y crea un nuevo corpus que permita un estudio más sistemático para establecer, si es posible, las condiciones en las que se produce el error.

La transcripción fonética automática en la conversión de texto en habla

El módulo prosódico

  1. Conéctate a la demostración interactiva de Loquendo en la red y selecciona una voz en tu lengua o en una lengua que conozcas.
  2. Loquendo (2011). Interactive TTS Demo. Torino: Loquendo - Nuance.
    http://www.loquendo.com/en/demo-center/interactive-tts-demo/

  3. Crea un texto o un conjunto de frases (500 caracteres como máximo) en el que aparezcan ejemplos de los fenómenos que debería tratar adecuadamente el módulo prosódico de un sistema de conversión de texto en habla.
  4. Escucha el resultado de la síntesis, determina los errores cometidos por el sistema y establece una clasificación de los tipos de error encontrados.
  5. Selecciona un tipo de error y crea un nuevo corpus que permita un estudio más sistemático para establecer, si es posible, las condiciones en las que se produce el error.

El módulo prosódico en un conversor de texto en habla


La síntesis del habla - Ejercicios
Lorraine Baqué, Departament de Filologia Francesa i Romànica y Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Last updated: