line_red

2. La síntesis de los elementos segmentales

Tecnologies de la parla I (1996-1997)

line_red

2.1. El modelo de la fuente y el filtro en la síntesis del habla

Referencias generales sobre el modelo de la fuente y el filtro
2.2. La síntesis por predicción lineal (Linear Predictive Coding, LPC)

Referencias generales sobre la síntesis por predicción lineal
2.3.La síntesis por formantes

Referencias generales sobre la síntesis por formantes
line_red

2.1. El modelo de la fuente y el filtro en la síntesis del habla

La teoría acústica de la producción del habla.

El concepto de fuente; fuente periódica y fuente aperiódica; fuente aperiódica continua y fuente aperiódica impulsional.

La función de transferencia - filtro - del tracto vocal: filtro oral y filtro nasal; filtro fijo y filtro variable.

Teoría acústica de la producción del habla y modelos de síntesis. La simulación de la fuente - generador de ondas periódicas o de ruido - y la simulación de la función de transferencia - filtro digital -.

Referencias generales sobre el modelo de la fuente y el filtro

BORDEN, G.J. - HARRIS, K.S. (1980) Speech Science Primer. Physiology, Acoustics and Perception of Speech. Baltimore: Williams & Wilkins.

BORZONE DE MANRIQUE, A.M. (1980) Manual de fonética acústica. Buenos Aires: Hachette (Hachette Universidad).

FANT, C.G. (1960) Acoustic Theory of Speech Production. With Calculations based on X-Ray Studies of Russian Articulations. The Hague: Mouton (Description and Analysis of Contemporary Standard Russian, 11).

FANT, C.G. (1968) "Analysis and synthesis of the speech processes" in MALMBERG, B. (Ed) Manual of Phonetics. Amsterdam. North Holland Publishing Company. pp. 173-277.

HOLMES, J.N. (1988) Speech Synthesis and Recognition. Wokingham: Van Nostrand Reinhold [cap 2]

JAVKIN, H.R. (1996) "Speech analysis and synthesis", in LASS, N.J (Ed) Principles of Experimental Phonetics. St Louis: Mosby. pp. 245-276

KENT, R.D.- READ, Ch. (1992) The Acoustic Analysis of Speech. London - San Diego: Whurr Publishers - Singular Publishing Group.

LADEFOGED, P. (1985) "The phonetic basis for computer speech processing" in F. FALLSIDE i W.A. WOODS (Eds) Computer Speech Processing. London: Prentice Hall. pp. 3-27.

LADEFOGED, P. (1996) Elements of Acoustic Phonetics. Chicago - London: University of Chicago Press. Second Edition.

LANDERCY, A.- RENARD, R. (1977) Éléments de phonétique. Mons / Bruxelles: Centre International de Phonétique Appliqueé / Didier.

LIEBERMAN, P.- BLUMSTEIN, S.E. (1988) Speech Physiology, Speech Perception and Acoustic Phonetics. Cambridge: Cambridge University Press (Cambridge Studies in Speech Science and Communication).

O'SHAUGHNESSY, D. (1987) Speech Communication. Human and Machine. Addison Wesley Publishing Co. [ cap. 3 ]

ROSEN, S.- HOWELL, P. (1991) Signals and Systems for Speech and Hearing. London: Academic Press.

2.2. La síntesis por predicción lineal (Linear Predictive Coding, LPC)

Estructura interna de un sintetizador LPC. Modelo de fuente y modelo de filtro digital.

Los parámetros de control de un sintetizador LPC: frecuencia fundamental, sonoridad, nivel de amplitd y coeficientes LPC.

Análisis y síntesis por LPC. Utilización del LPC en la codificación de las unidades de síntesis.

Referencias generales sobre la síntesis por predicción lineal

ATAL, B.S. (1985) "Linear Predictive Coding of Speech " in F. FALLSIDE - W.A. WOODS (Eds) Computer Speech Processing. Englewood Cliffs, N.J. : Prentice Hall Intenational pp. 81-124.

ATAL, B.S. - HANAUER, S.L. (1971) "Speech Analysis and Synthesis by Linear Predictive Coding of the Speech Wave", Journal of the Acoustic Society of America 50, 2,2: 637-655; in FLANAGAN, J.L.- RABINER, L.R. (Eds.) (1973) Speech Synthesis. Stroudsburg, Penn.: Dowden, Hutchinson & Ross Inc. pp. 270-288; in ATAL, B.S.- MILLER, L.J.- KENT, R.D. (Eds.) (1991) Papers in Speech Communication: Speech Processing. New York: Acoustical Society of America. pp. 13-32.

BENBASSAT, G.- CARTERETTE, E.- SHIPLEY, C.- BUCHWALD, J. (1984) " Using LPC for Non-Speech Sounds " in BRISTOW, G. (Ed) Electronic Speech Synthesis. Techniques, Technology and Applications. London: Granada. pp. 288-302.

BRANTINGHAM, L.- STORK, J.- EDWARDS, G.- MOLLER, C. (1984) " Chips Using Linear Predictive Coding" en BRISTOW, G. (Ed) Electronic Speech Synthesis. Techniques, Technology and Applications. London: Granada. pp.158-176

CATER, J.P. (1983) Electronically Speaking: Computer Speech Generation. Indianapolis: Howard W Sams & Co Inc. [ pp. 111-119 " Linear Predictive Coded Speech " & 161-177 "Digital Vocal Tract Modelling Synthesizers " ]

GARCIA GOMEZ, R.- ALCAZAR FERNANDEZ, J.- SANTOS SUAREZ, J. (1984) "Codificación predictiva de la señal de voz", Mundo electrónico 144: 111-116.

LINGGARD, R. (1985) Electronic Synthesis of Speech. Cambridge: Cambridge University Press. [cap. 5: " Synthesis in the Time Domain " ]

MAKHOUL, J. (1984) " Linear Predictive Coding " in BRISTOW, G. (Ed) Electronic Speech Synthesis: Techniques, Technology and Applications. London: Granada. pp. 70-93.

MARKEL, J.D.- GRAY, A.H. (1976) Linear Prediction of Speech. Berlin / Heidelberg New York: Springer Verlag ( Communication and Cybernetics ,12).

O'SHAUGHNESSY, D. (1987) Speech Communication. Human and Machine. Addison Wesley Publishing Co.

RODRIGUEZ, M.- IGLESIAS, E.- MARTINEZ, R.- MUÑOZ, E. (1984) "Alternativas para síntesis de voz. Aplicaciones de predicción lineal", Mundo electrónico 144 : 67-79.

SCLATER, N. (1983) Introduction to Electronic Speech Synthesis. Indianapolis: Howard W Sams & Co., Inc. (Blacksburg Continuing Education Series ) [ cap. 5: " Frequency Domain Analysis Synthesis ]

WITTEN, I. H. (1982) Principles of Computer Speech. London: Academic Press (Computers and People Series). [ cap. 6 " Linear Prediction of Speech " ]

2.3.La síntesis por formantes

Los sintetizadores por formantes como modelos del tracto vocal estructurado en una fuente y un filtro.

La síntesis paramétrica: sistema de concatenación de unidades parametrizadas según un modelo del tracto vocal.

Modelos de síntesis en serie y en paralelo. La configuración en paralelo: control directo de la frecuencia y amplitud de los formantes y modelado de espectros complejos con polos y ceros. La configuración en serie: relación directa entre el modelo y las propiedades acústicas del espectro.

Parámetros de control de un sintetizador por formantes y su relación con las características fonéticas de los elementos segmentales.

El modelo de síntesis de Klatt y su implementación (KLSyn88 de Sensimetrics): configuración general, variables de la fuente, configuración en serie, configuración en paralelo.

Referencias generales sobre la síntesis por formantes

ALLEN, J.- HUNNICUTT, M.S.- KLATT, D.H. ( with R.C. ARMSTRONG and D. PISONI ) (1987) From Text to Speech: The MITalk System. Cambridge: Cambridge University Press ( Cambridge Studies in Speech Science and Communication ). [ cap. 12 "The Klatt formant synthesizer"]

FANT, C.G.- LILJENCRANTS, J.- LIN, Q. (1985) "A four parameter model of glottal flow", Speech Transmission Laboratory - Quarterly and Status Report 1985, 4: 1-13

GAGNON, R.- FONS, K.- GARGAGLIANO, T. (1984) " Phonetic synthesis " in BRISTOW, G. (Ed) Electronic Speech Synthesis. Techniques, Technology and Applications. London: Granada pp. 177-191

HOLMES, J. N. (1973) "The Influence of Glottal Waveform on the Naturalness of Speech from a Parallel-formant Synthesizer", IEEE Transactions on Audio & Elecroacoustics AU-21: 298-305

HOLMES, J. N. (1979) "Synthesis of Natural-Sounding Speech Using a Formant Synthesizer" in LINDBLOM, B. - OHMAN, S. (Eds) Frontiers of Speech Communication Research. London: Academic Press. pp. 275-85.

HOLMES, J. N. (1985) "A Parallel-Formant Synthesizer for Voice-Machine Output" en F. FALLSIDE - W.A. WOODS (Eds) (1985) Computer Speech Processing. Englewood Cliffs, N.J. : Prentice Hall International. pp.163-189

HOLMES, J.N. (1983) "Formant Synthesizers: Cascade or Parallel?", Speech Communication 2: 251-273; in ATAL, B.S.- MILLER, L.J.- KENT, R.D. (Eds.) (1991) Papers in Speech Communication: Speech Processing. New York: Acoustical Society of America. pp. 33-56.

HUGHES, P.M. (1990) " Formant based speech synthesis", in WHEDDON, C.- LINGGARD, R. (Eds) Speech and Language Processing. London: Chapman and Hall. pp. 145-156

ISHIZAKA, K.- FLANAGAN, J.L. (1972) "Synthesis of Voiced Sounds from a Two-Mass Model of the Vocal Cords" Bell System Technical Journal 5,6: 1233-1268; in KENT, R.D.- ATAL, B.S.- MILLER, J.L. (Eds) (1991) Papers in Speech Communication: Speech Production. New York: Acoustical Society of America. pp. 183-218

JANSSON, A. (1995) "KlattTool: a graph-based editor for formant synthesis", in Phonum. Reports from the Department o Phonetics, Umeå University, 3: 111-118

KARLSSON, I. (1991) " Female voices in speech synthesis ", Journal of Phonetics 19,1: 111-120

KLATT, D.H. (1980) "Software for a Cascade/Parallel Formant Synthesizer", Journal of the Acoustical Society of America 67, 3: 971-995; in KENT, R.D.- ATAL, B.S.- MILLER, J.L. (Eds) (1991) Papers in Speech Communication: Speech Production. New York: Acoustical Society of America. pp. 765-789

KLATT, D.H.- KLATT, L.C. (1990) " Analysis, synthesis and perception of voice quality variations among female and male talkers", Journal of the Acoustical Society of America 87,2: 820-857; in KENT, R.D.- ATAL, B.S.- MILLER, J.L. (Eds) (1991) Papers in Speech Communication: Speech Production. New York: Acoustical Society of America. pp. 791-828

LADEFOGED, P. (1985) "The Phonetic Basis for Computer Speech Generation" en F. FALLSIDE - W.A. WOODS (Eds) (1985) Computer Speech Processing. Englewood Cliffs, N.J. : Prentice Hall International. pp.3-27

STEVENS, K.N.- BICKLEY, C.A. (1991) " Constraints among parameters simplify control of Klatt formant synthesizer", Journal of Phonetics 19,1:161-174

STYGER, T.- KELLER, E. (1994) "Formant Synthesis", in KELLER, E. (Ed) Fundamentals of Speech Synthesis and Speech Recognition. Basic Concepts, State of the Art and Future Challenges. Chichester: John Wiley & Sons. pp. 109-128


line_red

Guión y bibliografía tema 2: La síntesis de los elementos segmentales - Tecnologies de la parla I (1996-1997)
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
http://liceu.uab.cat/~joaquim/speech_technology/Tecnol_parla_1996/Tema2/guion_y_bibl_tema_2.html
Last updated: 21/8/03 20:34

line_red