La síntesis basada en corpus


Síntesis basada en corpus


La síntesis basada en corpus

Corpus-based speech synthesis.

Método para la conversión de texto en habla basado en la selección de unidades (unit selection) de longitud variable (non-uniform).

Las unidades de síntesis están recogidas en un corpus etiquetado y alineado en distintos niveles y se concatenan una vez realizada la selección.

sintesi_corpus.jpg

Conversión de texto en habla basada en corpus.

AcapelaGroup. (28/02/2014). How does text to speech (TTS) work - by Acapela voices [Archivo de video]. Consultado en https://www.youtube.com/watch?v=TykwDARmVIU

Selección de unidades

El corpus de síntesis constituye el inventario de unidades.

Se selecciona la cadena fonética más larga que corresponde al texto de entrada del sistema de síntesis.

Se minimiza el número de concatenaciones y se busca la adecuación prosódica.

Diseño y evaluación de algoritmos de selección.

Diseño del corpus

Definición del inventario de fonemas y alófonos y de sus combinaciones.

Cobertura de los alófonos y de sus combinaciones (difonemas).

Cobertura de los fenómenos prosódicos.

El sistema LoquendoTTS®

Llisterri, J., Machuca, M. J., Madrigal, N., Mancini, F., Massimino, P., de la Mota, C., . . . Ríos, A. (2004). Aspectos lingüísticos en el diseño de un conversor de texto en habla en castellano y en catalán: El sistema Loquendo TTS®. En VI Congreso de Lingüística general. Universidad de Santiago de Compostela, Santiago. 3-7 de mayo de 2004. (pp. 521-2). Santiago de Compostela: Universidade de Santiago de Compostela, Facultade de Filoloxía, Área de Lingüística Xeral. Consultado en http://liceu.uab.cat/~joaquim/publicacions/Llisterri_et_al_04_Conversor_Texto_Habla_Castellano_Catalan_Loquendo.pdf

Corpus escrito inicial de 3 millones de palabras extraídas de textos periodísticos, literarios, culturales, científicos, didácticos, etc.

Transcripción fonética automática del texto escrito.

Selección automática de secuencias que se acerquen al equilibrio fonético teniendo en cuenta el contexto de aparición de los alófonos.

Edición manual de 200 frases enunciativas e interrogativas para ajustar el equilibrio fonético y la estructura sintáctica.

Selección del locutor en función de la variedad lingüística, la elocución y la plasticidad: locutores profesionales.

Control lingüístico de la grabación de las 200 frases.

Correspondencia entre la realización del locutor y la transcripción fonética automática generada por el sistema.

Base de datos acústica de unos 200 Mb codificada a 16 kHz en PCM (Pulse Code Modulation).

Reducción del tamaño mediante técnicas de codificación de la señal.

Síntesis basada en corpus


La síntesis basada en corpus
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Last updated: