John N. HOLMES, Speech Synthesis and Recognition, Van Nostrand Reinhold (UK) Co.Ltd, Wokingham (Aspects of Information Technology), 1988.

Joaquim Llisterri

Límits, Revista d'Assaig i d'Informació sobre les Ciències del Llenguatge (Barcelona) 8 (1990): 106-111

Aquest terreny interdisciplinar que s´ha anomenat tecnologia de la veu, no disposava encara d´un manual de conjunt, escrit per un especialista prestigiós, que constituís una introducció actualitzada als problemes presentats per la interacció oral entre els humans i els sistemes informàtics. Si bé en els darrers deu anys han aparegut reculls d´articles molt útils com els de Bristow o de Fallside i Woods (1), per a trobar una panoràmica completa havíem de recorrer al treball de Poulton (2), correcte a grans trets, però d´abast molt limitat. 

John Holmes és precisament una de les veus més autoritzades per a explicar què és la tecnologia de la veu a finals de la dècada dels vuitanta. La seva trajectòria ha estat marcada per la direcció de la Joint Speech Research Unit- centre governamental capdavanter en els seixanta i els setanta que durant un temps tingué les seves instal·lacions a Cheltenham -, i per l´experiència en els darrers anys com a assessor privat en empreses dedicades a desenvolupar productes comercials relacionats amb la síntesi, el reconeixement i la codificació de la veu. Ja el 1972 publicà Speech Synthesis (3), monografia introductòria i succinta, de la qual és una continuació natural el llibre que ara s’acaba de publicar. 

Tot i que Holmes s´ha destacat sempre per defensar un enfocament molt lingüístic de la síntesi, emprant els paràmetres i les regles que són familiars als fonetistes especialitzats en anàlisi acústica de la parla, Speech Synthesis and Recognition s´adreça sobretot a lectors amb la formació de l’autor, és a dir, l´enginyeria electrònica. No es pressuposen coneixements de fonètica, però sí, com s´indica en el pròleg, unes bases de matemàtiques i d´electrònica similars a les d´un estudiant de primer cicle d´enginyeria de telecomunicació. No penso pas que això hagi de desencoratjar els lectors d´altres especialitats; de fet, la part dedicada a la síntesi és perfectament comprensible i, encara que en dos dels capítols dedicats al reconeixement aparegui l´aparell formal propi de les tècniques de processament de senyals - sobretot en l´exposició dels models de Markov -, les idees generals poden seguir-se sense entrebancs. 

Malgrat tot, l´orientació del treball cap a un públic dedicat preferentment a les qüestions tecnològiques queda ben patent al llarg del llibre, i especialment en els primers capítols, en els quals el lector lingüista trobarà explicades la diferència entre llengua, accent i dialecte, entre sons i grafies, llengua escrita i llengua parlada o entre vocal i consonant . Fins i tot llegirà amb certa sorpresa com, segons Holmes, la fonètica i la fonologia need not to be studied in any detail by students of speech technology (p.2), afirmació que només pot compartir-se si es pensa que en un equip de treball hi ha normalment integrats especialistes en ambdues disciplines que col·laboren amb d´altres experts. 

Potser per això mateix, s´explica també la manca de referències a manuals de fonètica mínimament aprofundits per a aquells que es volen iniciar en la tecnologia de la veu; s´esmenta com a úniques fonts bibliogràfiques O´Connor i Roach (4), treballs acurats però excessivament simples . En la meva opinió, per tal de començar amb una certa seguretat l´estudi del llibre de Holmes, s´hauria de conèixer bé els conceptes bàsics d´acústica de la parla tal com apareixen exposats, per exemple, al libre de Fry (5) o en presentacions equivalents . 

El mateix enfocament del procés de producció de la parla, concebut com un sistema ressonador que consta d´una font i un filtre - presentació que es fonamenta en els treballs ja clàssics de Gunnar Fant i James L. Flanagan , difícils sense una preparació prèvia - es porta a terme insistint en les analogies entre els conceptes acústics i els circuits elèctrics i en la possibilitat de construir models electrònics o computacionals tant del tracte vocal - és a dir, sintetitzadors per formants en sèrie i en paral·lel - com de la font d´excitació, dos temes en els quals Holmes ha fet contribucions substancials (6). 

L´autor deixa clar en el pròleg que es tracta d´un llibre de text pensat per a cobrir la distància entre els coneixements bàsics - els d´un enginyer, repeteixo - i la recerca. Precisament per aquest motiu Holmes abasta una temàtica molt àmplia i ho fa de manera didàctica, amb exercicis al final de cada capítol que obliguen sovint a fer-ne una relectura buscant el perquè dels fenomens discutits, un excel·lent resum dels conceptes més importants i un comentari orientatiu al final del llibre sobre les referències bibliogràfiques que permeten d´ampliar o completar el contingut. Ho fa també, com es palesa ja en l´índex, mantenint un bon equilibri entre la síntesi i el reconeixement. 

Tot i així, no s´ha de pensar que tenim davant un llibre de lectura fàcil. Sobre tots els temes tractats es recullen les dades essencials, però d´una manera tan econòmica que es fa gairebé imprescindible la consulta de bibliografia addicional, no només per trobar la documentació bàsica assumida per l´autor - aquest és el cas dels lectors que desenvolupen la seva activitat en l´àmbit de les ciències humanes - sinó també per a relacionar les nocions exposades amb el treball quotidià en síntesi o en reconeixement tant al laboratori com a l´empresa. Precisament aquest tret fa que Speech Synthesis and Recognition constitueixi un bon esquelet per a estructurar un curs de postgrau a les nostres facultats: per una part forneix els elements bàsics del programa, mentre que, per una altra, demana - i alhora orienta - una consulta constant a la biblioteca per part de l´estudiant a fi de d´assimilar amb solidesa allò que s´exposa. 

De fet, els tres primers capítols són comuns a la síntesi i al reconeixement, ja que tracten de manera general la comunicació oral (1), la producció (2) i la percepció - més aviat l´audició - (3) de la parla. Els capítols 4, 5 i 6 es dediquen ja pròpiament a la síntesi, començant pels diversos mètodes de codificació digital (4), seguint amb les tècniques de síntesi per concatenació d´elements prèviament emmagatzemats (5) i acabant amb la síntesi per regles (6), tema sobre el qual Holmes ha fet una de les seves aportacions més importants, especialment reflectida en el seu article del 1964 en col·laboració amb I. Mattingly y J.N. Shearme (7). Aquest capítol - probablement un dels més interessants per a un fonetista - tracta amb detall la utilització en síntesi de les regles derivades dels estudis de fonètica acústica seguint el treball esmentat i la seva aplicació als conversors de text a veu, demostrant alhora els avantatges d´aquest mètode sobre els que utilitzen informació ja gravada. 

En conjunt, i pel que fa a la síntesi, tenim al davant un llibre que pot comparar-se a treballs més detallats com el de Witten - ara ja una mica desfassat - o el de Linggard (8) -tot i que aquest presenta un tractament encara més tècnic dels problemes - i que al meu entendre els millora, donada la reconeguda importància de la recerca portada a terme per l´autor en aquest camp. Com a manual universitari, supera en molts aspectes els llibres de Cater , Sclater i de Morgan (9), centrats en les aplicacions pràctiques de la síntesi en relació amb els productes comercials existents en el moment de la seva redacció i, en general, de caire divulgatiu i concebuts per a tècnics que necessiten una ràpida introducció al món de la sortida oral en els ordinadors. 

Els capítols dedicats al reconeixement s´estructuren de la manera següent: tècniques de reconeixement de paraules senceres per plantilles (7), models estocàstics per al reconeixement de paraules (8) i sistemes amb grans vocabularis (9). Holmes discuteix en el capítol set les tècniques per a calcular la diferència entre el model emmagatzemat en el sistema i el senyal que cal reconèixer -tenint en compte els problemes de la normalització de la durada i la detecció del principi i el final dels mots - i els possibles modes d´analitzar aquest senyal, introduint també el reconeixement de paraules connectades. Els models ocults de Markov ( HMM ) s´introdueixen en el capítol vuit partint de la teoria de la probabilitat, en el que indubtablement constitueix la part més difícil del llibre per a persones allunyades dels formalismes matemàtics. 

L´interès del lingüista es torna a desvetllar quan en el capítol nou es planteja la utilització de trets fonètics en el reconeixement, especialment en el cas de vocabularis molt grans; Holmes presenta breument la possibilitat d´emprar sistemes experts o aproximacions estadístiques als valors dels trets i els diversos tipus de processament lingüístic que es poden portar a terme un cop s´ha fet la segmentació fonètica. Finalment, es tornen a introduir els models de Markov en relació al funcionament del sistema Tangora d'IBM que permet - amb certes limitacions - dictar cartes comercials amb un vocabulari de 20000 paraules. 

Potser en l´apartat de les mancances en el reconeixement, trobaria a faltar algun comentari sobre el problema de l´avaluació tant de l´entrada com de la sortida oral, tal com apareix per exemple en el recent manual d´Ainsworth (10) . A diferència d´aquest, Holmes no fa esment de les aplicacions - el lector interessat pot consultar però les antologies de Bristow (11)-; tampoc no es troben descripcions de sistemes concrets com les que apareixen a Casacuberta - Vidal ni referències a productes comercials com a Cater, molt més orientat cap al món de l´empresa (12) . 

El llibre es clou amb amb un capítol sobre les perspectives de futur en síntesi i en reconeixement, defensant la interacció entre els dos camps. En aquest aspecte, senyala Holmes que the predominant need is for knowledge about the structure of speech, and its relationship to the underlying linguistic content of utterances ( p. 173 ); hi ha molts aspectes d´aquest coneixement que poden ésser compartits per la síntesi i el reconeixement, fins ara relativament independents, però que en el futur hauran de convergir. Finalment, cal destacar un apartat dedicat als models connexionistes o de processament en paral·lel ( PDP ) fins ara absents dels manuals sobre la matèria que ens ocupa. 

Voldria acabar amb una reflexió que Holmes aplica a la síntesi, pero que , en la línia proposada abans, es pot fer extensiva a tot el camp de la tecnologia de la veu: There is a very large amount of work needed by suitable skilled experimental phoneticians to investigate all the possible circumstances in which allophonic variation is required (... ) Given the right tools and enough people, most of the problems at this level for any chosen language should be soluble within a very few years ( p. 170 ). Sense cap mena de dubte, una lectura atenta del llibre per part dels fonetistes els ajudarà a descobrir el seu paper en el món de la comunicació oral entre els homes i les màquines. 

Notes

(1) BRISTOW, G. (Ed) (1984) Electronic Speech Synthesis. Techniques, Technology and Applications.Londres: Granada; BRISTOW, G. (Ed) (1986) Electronic Speech Recognition. Techniques, Technology and Applications.Londres: Collins; FALLSIDE, F.- WOODS, W.A. (Eds) (1985) Computer Speech Processing.Englewood Cliffs, N.J. : Prentice Hall International.

(2) POULTON, A.S. (1983) Microcomputer Speech Synthesis and Recognition.Wilmslow: Sigma Technical Press. 

(3) HOLMES, J.N. (1972) Speech Synthesis.Londres: Mills & Boon. 

(4) O´CONNOR, J.D. (1973) Phonetics.Harmondsworth: Penguin Books; ROACH, P. (1983) English Phonetics and Phonology.Cambridge: Cambridge University Press. 

(5) FRY, D.B. (1979) The Physics of Speech.Cambridge: Cambridge University Press. 

(6) Resumides principalment a HOLMES, J.N. (1973) "The Influence of Glottal Waveform on the Naturalness of Speech from a Parallel-Formant Synthesizer", IEEE Transactions on Audio & Electroacoustics AAU-21: 298-305; HOLMES, J.N. (1979) "Synthesis of Natural-Sounding Speech Using a Formant Synthesizer", a B. LINDBLOM - S. OHMAN (Eds) Frontiers of Speech Communication Research.Londres: Academic Press. pp. 275-85 ; i a HOLMES, J. (1985) "A Parallel-Formant Synthesizer for Voice-Machine Output", a F. FALLSIDE - W.A. WOODS (Eds) pp. 163-189. 

(7) HOLMES, J.- MATTINGLY, I.- SHEARME, J.N. (1964) "Speech Synthesis by rule", Language and Speech 7: 127-143; i a J.L. FLANAGAN - L.R. RABINER (Eds) (1973) Speech Synthesis.Stroudsburg, Penn.: Dowden, Hutchinson & Ross. pp. 351-367. 

(8) WITTEN, I.H. (1982) Principles of Computer Speech.Londres: Academic Press; LINGGARD, R. (1985) Electronic Synthesis of Speech.Cambridge: Cambridge University Press. 

(9) CATER, J.P. (1983) Electronically Speaking: Computer Speech Generation.Indianapolis: Howard W Sams; SCLATER, N. (1983) Introduction to Electronic Speech Synthesis.Indianapolis: Howard W Sams; MORGAN, N. (1984) Talking Chips. IC Speech Synthesis.Nova York: McGraw Hill. 

(10) AINSWORTH, W.A. (1988) Speech Recognition by Machine.Londres: Peter Peregrinus Ltd on behalf of the IEE. 

(1)1 BRISTOW, G. (Ed) (1984) Electronic Speech Synthesis. Techniques, Technology and Applications.Londres: Granada; BRISTOW, G. (Ed) (1986) Electronic Speech Recognition. Techniques, Technology and Applications.Londres: Collins. 

(12) CASACUBERTA, F.- VIDAL, E. (1987) Reconocimiento automático del habla.Barcelona: Marcombo - Boixareu Editores; CATER, J.P. (1984) Electronically Hearing: Computer Speech Recognition.Indianapolis: Howard W Sams.