El sintetizador por formantes de Klatt


La síntesis por formantes


Dennis H. Klatt (1938-1988)

Speeech Communication Group, Research Laboratory of Electronics, MIT.

../../../../phonetics/phoneticians/Klatt_Dennis.jpg

(Fuente: O. Engstrand, Phonetic portrait gallery, Department of Linguistics, Stockholm University).

up arrow

El sintetizador por formantes de Klatt

Klatt, D. H. (1980). Software for a cascade/parallel formant synthesizer. The Journal of the Acoustical Society of America, 67(3), 971-995. doi:10.1121/1.383940

Klatt, D. H. (1991). Software for a cascade/parallel formant synthesizer. En R. D. Kent, B. S. Atal y J. L. Miller (Eds.), Papers in speech communication: Speech production. (pp. 765-89). New York: Acoustical Society of America. (Obra original publicada en 1980).

Permite dos configuraciones: en serie y en paralelo -la configuración habitual- y únicamente en paralelo.

klatt_serie_paralelo.gif
klatt_paralelo.gif

Klatt, D. H. (1980). Software for a cascade/parallel formant synthesizer. The Journal of the Acoustical Society of America, 67(3), 971-995. doi:10.1121/1.383940

Klatt, D. H. (1991). Software for a cascade/parallel formant synthesizer. En R. D. Kent, B. S. Atal y J. L. Miller (Eds.), Papers in speech communication: Speech production. (pp. 765-89). New York: Acoustical Society of America. (Obra original publicada en 1980).

El esquema general del sintetizador es el siguiente:

esquema_klatt.gif

Klatt, D. H. (1980). Software for a cascade/parallel formant synthesizer. The Journal of the Acoustical Society of America, 67(3), 971-995. doi:10.1121/1.383940

Klatt, D. H. (1991). Software for a cascade/parallel formant synthesizer. En R. D. Kent, B. S. Atal y J. L. Miller (Eds.), Papers in speech communication: Speech production. (pp. 765-89). New York: Acoustical Society of America. (Obra original publicada en 1980).

up arrow

klsyn88 (Sensimetrics Corporation)

klatt.gif

Sintetizador por formantes en serie y en paralelo.

Versión mejorada del sintetizador por formantes de Klatt (1980).

Configuración

La configuración general del sintetizador puede modificarse en lo que respecta a los siguientes parámetros:

configuration.gif

Fuente

Los parámetros de la fuente que pueden modificarse son los siguientes:

source.gif

Fuente periódica

Fuente de impulsos (Klatt, 1980).

KLGOTT88.

Modelo de Liljencrants y Fant.

Fuente aperiódica

Filtro

Resonadores para la fuente sonora periódica para la configuración en serie.

Utilizando la configuración en serie pueden variarse los siguientes parámetros:

cascade.gif

Resonadores para la fuente sonora periódica para la configuración en paralelo.

Utilizando la configuración en paralelo pueden modificarse los siguientes parámetros:

special.gif

Resonadores para la fuente generadora de ruidos de fricción para la configuración en paralelo.

parallel.gif

La configuración presentada anteriormente permite sintetizar una vocal oral de una duración de 500 ms, un f0 constante de 100 Hz, una intensidad constante de 60 dB y con formantes en serie situados respectivamente a F1= 500 Hz, F2= 1500 Hz, F3= 2500 Hz, F4= 3250 Hz, F5= 3700 Hz y F6= 4990 Hz. El resultado es similar a una vocal neutra o schwa.

oscil.gif

Representación oscilográfica.

espec.gif

Representación espectral.

Edición de los valores de los parámetros

Edición numérica mediante la introducción de valores de frecuencia y amplitud asociados a valores temporales.

Edición gráfica de la variación de los valores de los parámetros en el tiempo.

time.gif

Ejemplos de síntesis por formantes realizados por el Grupo de fonética del Departamento de Filología Española de la Universitat Autònoma de Barcelona mediante Klsyn88 en versión para Macintosh.

Pruebas de síntesis de consonantes fricativas (C. Carbó, 1995).

[asa] (1)

[asa] (2)

[asa] (3)

[asa] (4)

[asa] (5)

Pruebas de síntesis de consonantes nasales (I. Galera y D. Puigví, 1995).

[ame]

[amo]

[ane]

[anu]

[añe]

[año]

Pruebas de síntesis de consonantes oclusivas (F. Höfer, 1995).

[pa]

[pe]

[pi]

[po]

[pu]

[te]

[tu]

[ka]

[ke]

[ki]

[ko]

Ejemplos de síntesis por formantes realizados por el Grupo de fonética del Departamento de Filología Española de la Universitat Autònoma de Barcelona mediante Klsyn88 en versión para Macintosh.

up arrow

KPE80 - A Klatt Synthesiser and Parameter Editor (Department of Phonetics and Linguistics, University College London)

Desarrollado por Andrew Simpson (Department of Phonetics & Linguistics), University College London.

KPE80 es una interfaz gráfica para la implementación del sintetizador por formantes de Klatt desarrollada por Jon Iles and Nick Ing-Simmons.

diag1.gif

KPE80 - A Klatt Synthesiser and Parameter Editor.

Permite llevar a cabo el proceso conocido como “síntesis por copia” (copy synthesis) mediante el cual pueden crearse estímulos sintetizados basados en un enunciado natural, editando los valores de los parámetros hasta conseguir una reproducción sintetizada lo más parecida posible a la natural a partir de la cual se modifican los valores de los parámetros para realizar estudios de percepción.

/aba/ natural

/aba/ sintetizado

/ada/ natural

/ada/ sintetizado

/aga/ natural

/aga/ sintetizado

Ejemplos de síntesis por copia mediante KPE80.

up arrow

IGE, The Interactive Graphical Editor for Klatt88 Parameters (Department of Language and Linguistics, University of York)

Desarrollado por Robert P. Fletcher en el marco del proyecto YorkTalk (Department of Language & Linguistic Science, University of York).

IGE permite manipular de forma interactiva los parámetros correspondientes al locutor que se mantienen constantes en la síntesis y los parámetros relacionados con las características variables de cada segmento.

ige_dynp.gif

IGE, The Interactive Graphical Editor for Klatt88 Parameters.

ige_f0curs.gif

IGE, The Interactive Graphical Editor for Klatt88 Parameters.

up arrow

WinSnoori (Babel Technologies - LORIA, Nancy)

WinSnoori es un programa de análisis acústico del habla desarrollado en el LORIA (Laboratoire Lorrain de Recherche en Informatique et ses Applications) de Nancy.

El programa incluye una interfaz gráfica con el sintetizador de Klatt, del que se usa la implementación de Jon Iles and Nick Ing-Simmons.

WinSnoori permite llevar a cabo la síntesis a partir de los valores extraídos del análisis acústico de un documento y modificados mediante la interfaz gráfica.

winsnoori_acoustic.gif

Laprie, Y. (2010). A brief description of WinSnoori. Vandoeuvre-lès-Nancy: Équipe Parole, LORIA, Laboratoire Lorrain de Recerche en Informatique et ses Applications. Consultado en https://members.loria.fr/YLaprie/WinSnoori/GuidedTourW/index.html

winsnoori_synthe1.gif

Laprie, Y. (2010). A guided tour of WinSnoori. Vandoeuvre-lès-Nancy: Équipe Parole, LORIA, Laboratoire Lorrain de Recerche en Informatique et ses Applications. Consultado en https://members.loria.fr/YLaprie/WinSnoori/GuidedTourW/index.html

up arrow

SenSyn (Sensimetrics Corporation)

Sensyn es una versión actualizada y mejorada de Klsyn88, distribuida hasta julio de 2009 por Sensimetrics Corporation.

Esta versión incluye únicamente el código fuente en C y funciona solamente en sistemas operativos UNIX.

up arrow

HLsyn (Sensimetrics Corporation)

HLsyn es un sintetizador paramétrico basado en el modelo de síntesis de Klatt, distribuido hasta julio de 2009 por Sensimetrics Corporation para sistemas operativos Windows.

La síntesis se basa en 13 parámetros de tipo articulatorio que se relacionan con los 48 parámetros acústicos de SenSyn:

El usuario tiene también acceso al control y a la modificación de los parámetros acústicos de SenSyn.

hlchart_lg.gif

HLSyn, Sensimetrics Corporation.

Ejemplo de síntesis con HLSyn.

up arrow

CSRE (Avaaz Innovations)

CSRE Computerized Speech Research Environment es un programa de análisis acústico para Windows distribuido por Avaaz Innovations. Incluye un módulo de síntesis que implementa el sintetizador de Klatt.

La síntesis puede también realizarse a partir de valores extraídos del resultado del análisis acústico mediante el sistema CSRE.

up arrow

SynthWorks (SciCon R&D)

SynthWorks es una implementación del sintetizador de Klatt, distribuida por SciCon R&D para sistemas operativos Windows y Mac OS X.

El sintetizador ofrece 48 parámetros de control y dos configuraciones, en serie y en paralelo:

Los valores de los parámetros pueden manipularse mediante un interfaz gráfico o mediante tablas. Los datos sobre frecuencia de los formantes y frecuencia fundamental pueden modificarse a partir de un documentos sonoro original.

SciCon_synthhand.gif

SynthWorks. (2011).. Los Angeles, CA: Scicon R&D Inc. Consultado en http://www.sciconrd.com/synthworks.aspx

SciCon_synthspec.gif

SynthWorks. (2011).. Los Angeles, CA: Scicon R&D Inc. Consultado en http://www.sciconrd.com/synthworks.aspx

SciCon_synthmain.gif

SynthWorks. (2011).. Los Angeles, CA: Scicon R&D Inc. Consultado en http://www.sciconrd.com/synthworks.aspx

up arrow

Web Interface to the Klatt Synthesizer (Speech Research Laboratory, A.I. duPont Hospital for Children and the University of Delaware)

Interfaz en la web del sintetizador de Klatt creada por T. Bunnell en el Speech Research Laboratory (A.I. duPont Hospital for Children and the University of Delaware).

El sistema cuenta con cuatro tipos de interfaz:

La interfaz permite definir los parámetros constantes y los variables, cambiar los valores de los parámetros de control e incorporar scripts que permiten modificaciones a lo largo del tiempo.

Los parámetros considerados son los siguientes:

AbreviaturaParámetroValor por defectoMínimoMáximo
AV Amplitude of Voicing
Amplitud de la sonoridad
0 0 80
AF Amplitude of Frication
Amplitud de la fricción
0 0 80
AH Amplitude of Aspiration
Amplitud de la aspiración
0 0 80
AVS Amplitude of Sinusoidal Voicing
Amplitud de la sonoridad sinusoidal
0 0 80
F0 Fundamental Frequency
Frecuencia fundamental
0 0 500
F1 First formant
Frecuencia del primer formante
450 150 900
F2 Second formant
Frecuencia del segundo formante
1450 500 2500
F3 Third formant
Frecuencia del tercer formante
2450 1300 3500
F4 Fourth formant
Frecuencia del cuarto formante
3300 2500 4500
FNZ Frequency of Nasal Zero
Frecuencia del cero nasal
250 200 700
AN Amplitude of Nasal formant
Amplitud del formante nasal
0 0 80
A1 Amplitude of F1 (Parallel only)
Amplitud del primer formante (únicamente en la configuración en paralelo)
0 0 80
A2 Amplitude of F2 (Parallel only)
Amplitud del segundo formante (únicamente en la configuración en paralelo)
0 0 80
A3 Amplitude of F3 (Parallel only)
Amplitud del tercer formante (únicamente en la configuración en paralelo)
0 0 80
A4 Amplitude of F4 (Parallel only)
Amplitud del cuarto formante (únicamente en la configuración en paralelo)
0 0 80
A5 Amplitude of F5 (Parallel only)
Amplitud del quinto formante (únicamente en la configuración en paralelo)
0 0 80
A6 Amplitude of F6 (Parallel only)
Amplitud del sexto formante (únicamente en la configuración en paralelo)
0 0 80
AB Amplitude of Cascade/Parallel Bypass 0 0 80
B1 Bandwidth of F1
Ancho de banda del primer formante
50 40 500
B2 Bandwidth of F2
Ancho de banda del segundo formante
70 40 500
B3 Bandwidth of F3
Ancho de banda del tercer formante
110 40 500
SW Parallel/Cascade switch
Cambio entre la configuración en serie y la configuración en paralelo*
0 0 2
FGP Frequency of Glottal Pole
Frecuencia del polo gotal
0 0 600
BGP Bandwidth of Glottal Pole
Ancho de banda del polo gotal
100 100 2000
FGZ Frequency of Glottal Zero
Frecuencia del cero glotal
1500 0 5000
BGZ Bandwidth of Glottal Zero
Ancho de banda del cero glotal
6000 100 9000
B4 Bandwidth of F4
Ancho de banda del cuarto formante
250 100 500
F5 Fifth formant Frequency
Frecuencia del quinto formante
3850 3500 4900
B5 Bandwidth of F5
Ancho de banda del quinto formante
200 150 700
F6 Sixth formant Frequency
Frecuencia del sexto formante
4900 4000 4999
B6 Bandwidth of F6
Ancho de banda del sexto formante
1000 200 2000
FNP Frequency of Nasal Pole
Frecuencia del polo nasal
250 200 500
BNP Bandwidth of Nasal Pole
Ancho de banda del polo nasal
100 50 500
BNZ Bandwidth of Nasal Zero
Ancho de banda del cero nasal
100 50 500
FRA Second Glottal Resonator Bandwidth
Ancho de banda del segundo resonador glotal
200 100 1000
SR Sampling rate
Frecuencia de muestreo
10000 5000 20000
NWS Number of samples per frame
Número de muestras por trama
50 1 200
GAI Overall Gain control
Control global de la amplitud
48 0 80
NFC Number of cascaded formants
Número de formantes en la configuración en serie
5 4 6

*Valores de SW:

SW = 0 - Configuración en serie

SW = 1 - Configuración en paralelo con la amplitud de los formantes automáticamente ajustada para imitar las interacciones entre formantes de la configuración en serie.

SW = 2 -Configuración en paralelo sin ajustes en la amplitud de los formantes.

Bunnell, H. T. (1999). GENSYN - generate synthesis parameters. Wilmington, DE: Speech Research Lab, A.I duPont Hospital for Children and the University of Delaware. Consultado en http://www.asel.udel.edu/speech/tutorials/synthesis/gensyn.htm

up arrow

KlSyn (Department of Speech Pathology and Audiology, Western Michigan University)

KlSyn es un programa en DOS que funciona con el sistema operativo Windows, desarrollado por J. M. Hillenbrand (Department of Speech Pathology and Audiology, Western Michigan University).

Se basa en el sintetizador de Klatt, al que se han introducido modificaciones en la fuente, y permite la manipulación de los valores de los parámetros.

Los parámetros considerados son los siguientes:

AbreviaturaParámetroValor por defecto
SRSampling Rate
Frecuencia de muestreo
- The number of output samples computed per second of synthetic speech
10,000 samples/sec
DUDuration
Duración
- The number of msec from beginning to end of the synthetic utterance
1000 ms
UIUpdate interval
Intervalo de actualización
- The number of ms of waveform generated between times when parameter values are updated
5 ms
NFNumber of formants in cascade vocal tract
Número de formantes en la configuración en serie
- Specifies how many formants, counting from F1 up to a maximum of F8, are actually in the cascade vocal tract
5
SSSource switch
Selector del tipo de fuente
- A switch that determines which of two voicing source waveforms is used for synthesis
 
RSRandom seed
- The seed value given to the random number generator routine
0
OSOutput waveform selector
Selector del tipo de señal de salida
- Determines which waveform is saved in the output file
0
F0Fundamental frequency
Frecuencia fundamental
- The rate at which the vocal folds are currently vibrating in Hz times 10
 
AVAmplitude of voicing
Amplitud de la sonoridad
- The amplitude in dB of the voicing source waveform sent through the cascade vocal tract
 
AHAmplitude of aspiration
Amplitud de la aspiración
- The amplitude in dB of the aspiration noise sound source that is combined with periodic voicing, if present ('av'>0), to constitute the glottal sound source that is sent to the cascade vocal tract
 
ATAmplitude of turbulence
Amplitud de la turbulencia
- The amplitude in dB of turbulence noise generated at the glottis during the open phase of a glottal vibration
 
NONumber of samples in the open period
Número de muestras en el periodo de abertura
- A nominal indicator of the width of the glottal pulse when using the default impulse train glottal source, and the exact number of samples in the open period when using the natural voicing source ('ss'=2)
30
TLSpectral tilt of voicing
Pendiente espectral de la sonoridad
-The (additional) downward tilt of the spectrum of the voicing source, in dB, as realized by a soft one-pole low-pass filter
 
SKSkew to alternate periods
-The number of 25 microsecond increments to be added to and subtracted from successive fundamental period durations in order to simulate one aspect of vocal fry
 
F1, F2, F3, F4, F5, F6Formant frequency
Frecuencia de los formantes
-Determine the frequency in Hz of up to six resonators of the cascade vocal tract model, and of the frequency in Hz of each of six additional parallel formant resonators
 
B1, B2, B3, B4, B5, B6Formant bandwidth
Ancho de banda de los formantes
-Determine the bandwidths of resonators in the cascade vocal tract model
 
P1, P2, P3, P4, P5, P6Formant bandwidth
Ancho de banda de los formantes
- Control of bandwidths for the parallel formants
 
FPFrequency of the nasal pole
Frecuencia del polo nasal
- Can mimic the primary spectral effects of nasalization in vowel-like spectra
 
FPFrequency of the nasal zero
Frecuencia del cero nasal
- Can mimic the primary spectral effects of nasalization in vowel-like spectra
 
BPBandwidth of the nasal pole
Ancho de banda del polo nasal
- Can mimic the primary spectral effects of nasalization in vowel-like spectra
90 Hz
BPBandwidth of the nasal zero
Ancho de banda del cero nasal
- Can mimic the primary spectral effects of nasalization in vowel-like spectra
90 Hz
AFAmplitude of frication
Amplitud de la fricción
- Determines the level of frication noise sent to the various parallel formants
 
A1, A2, A3, A4, A5, A6, ABAmplitude of parallel formants
Amplitud de los formantes en la configuración en paralelo
- Determine the spectral shape of a fricative or plosive burst
 
P1, P2, P3, P4, P5, P6Bandwidth of parallel formants
Ancho de banda de los formantes en la configuración en paralelo
 
APAmplitude of voicing parallel
Amplitud de la sonoridad en la configuración en paralelo
- The amplitude, in dB, of voiced excitation of the parallel vocal tract
0 dB
ANAmplitude of parallel nasal formant
Amplitud del formante nasal en la configuración en paralelo
- When employing the parallel vocal tract to synthesize vowels can be used to simulate the effects of nasalization on vowels and nasal murmurs
 
G0Overall gain
Intensidad global
- Is included to permit the user to adjust the output level without having to modify each source amplitude time function
60 dB
SCAuto scaling
Escalado automático
- A constant parameter which switches the auto scaling feature on (sc = 1) or off (sc = 0)
 
Hillenbrand, J. M. (2005). KLSYN: A formant synthesizer program. Kalamazoo, MI: Department of Speech Pathology and Audiology, Western Michigan University. Consultado en http://homepages.wmich.edu/~hillenbr/klsyn/klsyn.txt

up arrow

Praat (Phonetic Sciences, University of Amsterdam)

El programa Praat, desarrollado por Paul Boersma y David Weenink en la Universidad de Ámsterdan, incluye una implementación del sintetizador por formantes de Klatt.

El sistema se basa en lo que se conoce como KlattGrid, un archivo que contiene el conjunto de parámetros necesario para la síntesis. Cada parámetro se modela de forma independiente en una cadena de valores variables en el tiempo denominada Tier.

Tiers relacionados con la fuente
Pitch
Flutter
Voicing amplitude
Open phase
Power1, Power2
Collision phase
Spectral tilt
Aspiration amplitude
Breathiness amplitude
Double pulsing
Tiers relacionados con el filtro (formantGrid)
Oral formants
Nasal formants
Nasal antiformants
Tiers relacionados con la interacción entre la fuente y el filtro
Tracheal formants
Tracheal antiformants
Delta formants
Tiers relacionados con la fricción (fuente aperiódica)
Frication formant grid
Frication by-pass tier
Amplitude tier

El proceso de creación de un KlattGrid puede realizarse también mediante scripts.

Existe la posibilidad de crear un KlattGrid a partir de un sonido existente, utilizando de forma automática los algoritmos de análisis de la señal de Praat.

Boersma, P. y Weenink, D. (2012). Klatt acoustic synthesis. Praat: Doing phonetics by computer. Amsterdam: Phonetic Sciences, University of Amsterdam. Consultado en http://www.fon.hum.uva.nl/praat/manual/KlattGrid.html

Weenink, D. (2009). The KlattGrid speech synthesizer. En Interspeech 2009. Proceedings of the 10th Annual Conference of the International Speech Communication Association. (pp. 2059-62). Brighton, United Kingdom. September 6-10, 2009. Consultado en http://www.isca-speech.org/archive/interspeech_2009/i09_2059.html

up arrow

La síntesis por formantes


El sintetizador por formantes de Klatt
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Last updated: