La síntesis basada en corpus
Esta página ha dejado de actualizarse
Corpus-based speech synthesis.
Método para la conversión de texto en habla basado en la selección de unidades (unit selection) de longitud variable (non-uniform).
Las unidades de síntesis están recogidas en un corpus etiquetado y alineado en distintos niveles y se concatenan una vez realizada la selección.
Conversión de texto en habla basada en corpus.
AcapelaGroup. (2014, 28 de febrero). How does Text to Speech (TTS) work – by Acapela voices [Documento en vídeo]. Consultado en http://www.youtube.com/watch?v=TykwDARmVIU
El corpus de síntesis constituye el inventario de unidades.
Se selecciona la cadena fonética más larga que corresponde al texto de entrada del sistema de síntesis.
Se minimiza el número de concatenaciones y se busca la adecuación prosódica.
Diseño y evaluación de algoritmos de selección.
Definición del inventario de fonemas y alófonos y de sus combinaciones.
Cobertura de los alófonos y de sus combinaciones (difonemas).
Cobertura de los fenómenos prosódicos.
Corpus escrito inicial de 3 millones de palabras extraídas de textos periodísticos, literarios, culturales, científicos, didácticos, etc.
Transcripción fonética automática del texto escrito.
Selección automática de secuencias que se acerquen al equilibrio fonético teniendo en cuenta el contexto de aparición de los alófonos.
Edición manual de 200 frases enunciativas e interrogativas para ajustar el equilibrio fonético y la estructura sintáctica.
Selección del locutor en función de la variedad lingüística, la elocución y la plasticidad: locutores profesionales.
Control lingüístico de la grabación de las 200 frases.
Correspondencia entre la realización del locutor y la transcripción fonética automática generada por el sistema.
Base de datos acústica de unos 200 Mb codificada a 16 kHz en PCM (Pulse Code Modulation).
Reducción del tamaño mediante técnicas de codificación de la señal.