Corpus orals per a la fonètica i les tecnologies de la parla

Joaquim Llisterri

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Joaquim.Llisterri@uab.es
http://liceu.uab.cat/~joaquim

Observatorio Español de Industrias de la Lengua, Instituto Cervantes

in Actes del I Congrés de Fonètica Experimental, Tarragona, 22, 23 i 24 de febrer de 1999. Universitat Rovira Virgili - Universitat de Barcelona. pp. 27-38.


Els corpus orals

Corpus orals en la lingüística de corpus i en la fonètica i les tecnologies de la parla

Des de la perspectiva de la lingüística de corpus, un corpus oral constitueix, habitualment, la transcripció ortogràfica — o transliteració — d’un enregistrament. Aquesta transcripció es pot enriquir amb diversos aspectes que reflecteixen el procés de producció de la parla, sempre en funció dels objectius del corpus. En darrera instància, el corpus constitueix una representació simbòlica de l’ús oral de la llengua. Per tal motiu, l’accés al senyal sonor es realitza, en general, únicament en la fase de transcripció.

En canvi, en el marc de la fonètica i de les tecnologies de la parla, el tractament dels corpus orals es porta a terme a partir del senyal sonor, ja que l’objectiu és obtenir informació fonètica o desenvolupar aplicaciones relacionades amb la síntesi, el reconeixement o el diàleg. La representació simbòlica es sol fer mitjançant un alfabet fonètic emprat per a l’etiquetat del senyal, tot i que es crea també una representació ortogràfica.

Aquests dues tradicions pel que fa a la constitució i explotació de corpus orals han estat relativament allunyades durant un cert temps. Tot i així, existeixen una sèrie de factors que fan preveure una convergència gradual, entre els quals cal esmentar la necessitat de corpus en transcripció ortogràfica en el camp de les tecnologies de la parla — imprescindibles per a la creació de models de llenguatge en el reconeixement o per a l’avaluació de mòduls lingüístics en la conversió de text a parla — i el reconeixement del caràcter essencial del senyal sonor en el camp de la lingüística de corpus (Llisterri, 1996).

Aplicacions dels corpus orals en fonètica i en tecnologies de la parla

En el camp de la fonètica, és ben sabut que els corpus orals són la base indispensable per a la descripció segmental i suprasegmental de les llengües, tan en el nivell articulatori com en l’acústic. En l’âmbit de la fonètica aplicada, la descripció contrastiva, l’anàlisi de la producció i de l’adquisició de la parla, els estudis sobre interferència fonètica en segones llengües, sobre patologies de la parla, sociolingüística i dialectologia, requereixen disposar de corpus orals amb accés al senyal sonor i a diversos nivells de representació simbòlica.

Pel que fa a les tecnologies de la parla, un corpus oral és necessari per a l’extracció d’unitats fonètiques, per a la modelització de la concatenació d’unitats, de la prosòdia, del locutor o de l’estil, en el desenvolupament d’aplicacions de conversió de text a parla. En el reconeixement, un corpus oral és una eina fonamental per a l’extracció d’unitats de reconeixement, per a la modelitzaciò del parlant i de l’entorn i per a la constitució de models de llenguatge i també de lèxics. El disseny d’un sistema de diàleg requereix igualment corpus orals que recullin interaccions persona-persona o persona-màquina per tal de modelitzar la tasca o les estratègies dels usuaris.

Característiques específiques dels corpus orals per a la fonètica i les tecnologies de la parla

Com s’ha indicat més amunt, un corpus oral adaptat a les necessitats de la fonètica i de les tecnologies de la parla conté, necessàriament, el senyal sonor; en determinats casos, el senyal pot acompanyar-se també de dades articulatòries.

Pel que fa a les característiques lingüístiques, es consideren sovint els estils de parla, entesos com una sèrie de dimensions relacionades amb l’espontaneïtat, la formalitat i el grau de preparació o planificació del discurs oral.

El contingut lingüístic dels corpus orals emprats en fonètica i en tecnologies de la parla abasta des dels sons aïllats fins al discurs espontani, incloent elements específics com ara els logatoms (mots sense sentit però fonològicament ben formats) o les frases marc (frases d’estructura controlada en la qual s’insereixen els elements que s’analitzaran, conegudes també com a frases portadores). Els corpus emprats en el desenvolupament d’aplicacions en tecnologies de la parla poden incloure frases fonèticament equilibrades o fonèticament riques, dígits, nombres connectats, seqüències alfanumèriques, lletres i paraules dites lletra per lletra, dates i hores, antropònims, topònims i mots relacionats amb l’aplicació.

També sol ésser habitual en el tipus de corpus al qual ens estem referint controlar i documentar les característiques dels parlants, entre les que es distingeixen les que són relativament estables — com les de tipus fisiològic i anatòmic o les relacionades amb la procedència geogràfica i el perfil sociolingüístic — de les transitòries, com poden ser les alternacions de l’aparell fonador o les condicions físiques generals. Determinats tipus de corpus requereixen informació addicional com l’estat emotiu, el grau d’estrés, la caracterització de patologies de la parla, l’estil utilitzat pel locutor, etc.

Aquest tipus de corpus presenta també trets específics pel que fa al nombre de parlants; típicament, un corpus per a la recerca en fonètica o per al desenvolupament de sistemes de síntesi es constitueix amb un nombre de parlants que oscil·la entre un i cinc; el desenvolupament de sistemes de reconeixement o determinats tipus d’investigació fonètica requereixen corpus que poden arribar als cinquanta parlants, mentre que l’entrenament i la verificiació de sistemes de reconeixement independent del locutor inclouen un nombre de locutors superior a cinquanta (Gibbon et al., 1998ª).

L’adquisició del senyal sonor es realitza, en general, en entorns acústicament controlats — cambra anecoica o sala insonoritzada — tot i que es pot dur a terme en entorns naturals — amb les dificultats per a l’anàlisi acústica que això comporta — o aprofitant les emissions dels mitjans de comunicació. El desenvolupament d’algunes aplicacions requereix l’enregistrament per telèfon o la introducció de soroll de fons (efecte Lombard). Existeixen, a més, tècniques específiques per a l’adquisió de determinats tipus de corpus com la "tasca del mapa" o el "protocol del Mag d’Oz", aquest darrer utilitzat en la recollida d’interaccions simulades entre un usuari i un sistema de diàleg. Altres menes de corpus es recullen mitjançant la lectura de textos o realitzant entrevistes més o menys dirigides i amb diferents graus de familiaritat entre l’entrevistador i l’entrevistat.

La transcripció i l’anotació són elements essencials en qualsevol corpus oral, i poden realitzar-se en diferents nivells: ortogràfic, fonèmic o fonològic (transcripció ampla, sistemàtica o fonotípica), al·lofònic (transcripció sistemàtica), fonètic (transcripció estreta) o prosòdic (Llisterri, 1997). L’etiquetat i l’alineació — entesa como la sincronització temporal entre el senyal sonor i la transcripció ortogràfica i fonètica — són dues operacions associades a l’etiquetat.

Existeixen diverses propostes de nivells d’etiquetat, entre les quals pot destacar-se la d’EAGLES (Gibbon et al., 1998ª); en aquesta proposta es distingeix un nivell ortogràfic, un nivell de formes canòniques (citation form, corresponent a la forma de pronúncia aïllada dels mots en estil acurat), un nivell de transcripció ampla o fonotípica (en el que s’inclouen els fenòmens predictibles propis de la fonètica sintàctica), un nivell de transcripció estreta amb la representació al·lofònica de les realitzacions fonètiques dels parlans, un nivell acústic-fonètic (en el qual es reflecteixen els trets fonètics acústics dels elements observables en una representació de l’ona sonora) i un nivell físic, en el qual es consideren paràmetres acústics o articulatoris.

Projectes realitzats a Espanya

En aquesta segona part de la presentació es revisen alguns projectes de constitució, desenvolupament i explotació de corpus orals duts a terme a l’Estat Espanyol en els darrers anys (Llisterri, 1998).

Corpus nacionals coordinats

Albayzín, Base de datos para el reconocimiento del habla en español

Albayzín és un corpus concebut per al desenvolupament de les tecnologies de la parla en castellà, especialment per a l’entrenament i l’avaluació de sistemes de processat i de reconeixement de parla; les característiques del seu disseny permeten també desenvolupar sistemes de comprensió de la parla i obtenir informació acústica per a la síntesi. Per altra banda, Albayzín fa possible l’estudi fonètic d’aspectes com la variabilitat inter- i intra-locutor, la variabilitat contextual de les representacions segmentals i la condicionada per les condiciones ambientals.

El primer component d’Albayzín és un corpus fonètic dissenyat per a recollir un ampli marge de variabilitat fonètica en les realitzacions al·lofòniques; l’anomenat "subcorpus d’aprenentatge" consisteix en 200 frases fonèticament equilibrades amb diverses restriccions fonètiques, mentre que el ""subcorpus de prova" està format per 500 frases sense restriccions fonètiques. Un segon element d’Albayzín és el corpus d’aplicació, consistent en 3900 frases corresponents a una tasca de consulta a una base de dades geogràfica. Finalment, el corpus de parla en ambient advers recull parts dels dos corpus anteriors enregistrades amb efecte Lombard.

El corpus s’ha recollit amb 304 locutors, parlants de la varietat central del castellà, sense trets específics d’una zona geogràfica o d’un grup social restringit; la mosta és equilibrada pel que fa al sexe dels parlants, i conté un 50% de locutors d’edats compreses entre els 18 i els 30 anys.

Els estàndars emprats en Albayzín són els definits en el projecte ESPRIT SAM, entre els que cal esmentar la transcripció fonètica en SAMPA (Sam Phonetic Alphabet).

Corpus emmarcats en projectes europeus

EUROM

http://gps-tsc.upc.es/veu/LR/LR_EuromI.php3

EUROM és un corpus multilingüe per al desenvolupament de les tecnologies de la parla a Europa, del que existeix una versió castellana. El corpus conté els següents elements: logatoms CV(C) amb les consonants en posició inicial, medial i final acompanyades de les vocals /i/, /a/, /u/; 100 dígits; els logatoms inclosos en 5 frases marc diferents; 40 paràgrafs de cinc frases cadascun; i 50 frases per a augmentar la cobertura fonètica del corpus.

Pel que fa al nombre de locutors, 60 parlants varen enregistrar 6 frases i dígits, 10 locutors varen enregistrar 75 frases més cinc repeticions de dígits i logatoms, mentre que 4 locutors varen enregistrat 10 repeticions dels logatoms, tan aïllats com inclosos en les frases marc.

SpeechDat, Spoken Language Resources

http://www.speechdat.org/

El primer projecte SpeechDat va tenir com a objectiu la definició d’estàndars per a la creació de bases de dades orals enfocades a les tecnologies de la parla i la creació d’una infraestructura per a la producció i distribució de recursos lingüísticos. En el marc del projecte es varen desenvolupar bases de dades en 7 llengües — entre les quals es compta el castellà — que contenen mots i expressions relacionades amb aplicacions, nombres, dígits aïllats, lletres, dates, quantitats de diners, hores, topònims i un conjunt de frases fonèticament riques.

SpeechDat II, Speech Databases for the Creation of Voice Driven Teleservices

http://www.speechdat.org/SpeechDat.html

Les bases de dades desenvolupades en el marc de SpeechDat II tenen com a principal objectiu servir en el desenvolupament de teleserveis d’informació (horaris de trens), transaccions (compres des de la llar, banca telefònica) o serveis (lectura del correu electrònic, centraletes automàtiques).

SpeechDat-Car, Speech Databases for Voice Driven Teleservices and Control in Automotive Environments

http://www2.echo.lu/langeng/en/le4/spchdatc/spchdatc.htm

L’objectiu de SpeechDat-Car fou la creació de bases de dades per al desenvolupament de sistemes d’ajuda a la conducció. Per tal motiu, l’adquisició del corpus en nou llengües, incloent el castellà, es va realitzar en entorns reals, a dins d’un cotxe en marxa i amb un telèfon GSM equipat amb un "kit" de mans lliures.

SALA, SpeechDat Across Latin America

http://gps-tsc.upc.es/veu/sala2/

El projectee SALA pretén d’aplicar els estàndars desenvolupats per SpeechDat a la creació de bases de dades per a l’entrenament de sistemes de reconeixement de parla per telèfon en les diverses varietats de l’espanyol d’Amèrica.

ONOMASTICA, Multilanguage Pronunciation Dictionary of Proper Names

http://guagua.echo.lu/langeng/en/lre1/onomas.html

El resultat del projecte ONOMASTICA, entre les llegües del qual s’inclou el castellà, és un diccionari multilingüe de pronúncia de noms propis en CD-ROM que conté 4.5 milions d’entrades transcrites i validades manualment.

ACCOR, Articulatory-Acoustic Correlations in Coarticulatory Processes. A Cross-Linguistic Investigation

http://www.cstr.ed.ac.uk/research/projects/artic/accor.html
http://www.cstr.ed.ac.uk/research/projects/artic/accor.html

En el marc dels dos projectes ACCOR es va desenvolupar una bases de dades multicanal en 7 llengües europees — entre elles el català — que conté dades fisiològiques — electropalatografia i transducció electromagnètica — i aeordinàmiques.

MULTEXT, Multilingual Text Tools and Corpora

http://aune.lpl.univ-aix.fr/projects/multext/index.html

Tot i que el projecte es va centrar en el tractament de la llengua escrita, MULTEXT va donar també com a resultat la validació perceptiva de l’estilització de la freqüència fonamental i l’etiquetat prosòdic mitjançant el sistema INTSINT dels paràgrafs inclosos en la base de dades EUROM, incloent els que corresponen a la versió castellana. Actualment es desenvolupa el mateix projecte per al català.

MATE, Multilevel Annotation, Tools Engineering

http://xml.coverpages.org/mate.html

MATE és un projecte en curs que té com a objectiu el desenvolupament d’estàndars per a l’anotació de diàlegs especialment orientats a la creació de sistemes de comunicació persona-màquina. Entre els diversos nivells contemplats s’inclou l’etiquetat prosòdic, i el castellà és una de les llengües incloses en el projecte.

Corpus desenvolupats per empreses

Existeixen a Espanya una sèrie de corpus desenvolupats en el contex de projectes empresarials. Poden esmentar-se principalment els emprats en el desenvolupament d’aplicacions a Telefónica I+D - CEUDEX, Corpus en español para entrenamiento de unidades dependientes del contexto; SPATIS, Spanish Air Travel Information System; VESTEL, Voz en español por línea telefónica, VOCATEL en català i VOGATEL en gallec — i el corpus TANGORA, creat per IBM España per al desenvolupament de la línia de productes de dictat automàtic en castellà comercialitzats com a VoceType i ViaVoice. Donades les seves característiques, aquests recursos no solen ésser públicament accessibles.

Corpus desenvolupats per grups de recerca

A més dels recursos lingüístics desenvolupats en el marc de projectes nacionals coordinats o de projectes amb finançament europeu, diversos grups de l’Estat Espanyol han creat una sèrie de corpus motivats per les seves necessitats i els seus interessos.

Poden esmentar-se, en primer lloc, els corpus sorgits de diversos laboratoris de fonètica, dissenyats per a la descripció articulatòria i acústica de la llegua, per a la descripció de les varietats geogràfiques, de les varietats socials o per a l’estudi dels estils de parla. Aquesta mena de corpus s’han desenvolupat en castellà, català, gallec i basc.

Per altra banda, els grups dedicats al processament del senyal han desenvolupat — en alguns casos en col·laboració amb grups especialitzats en fonètica — corpus per a l’extracció d’unitats per a la síntesi i per al desenvolupament de models prosòdics aplicables a la conversió de text a parla. Hom compta ambé amb corpus per a l’extracció d’unitats per al reconeixement de la parla i per a l’entrenament i avaluació d’aquests sistemes, així com de corpus que contenen elements específics com ara dígits, lletres, etc., relacionats amb una determinada aplicació, o corpus recollits per telèfon, en ambients adversos o especialment orientats a la verificació i dentificació del locutor. Corpus amb algunes d’aquestes característiques existeixen també en castellà, català, gallec i basc.

Finalment, cal esmentar els corpus orientats al desenvolupament de sistemes de diàleg, emprats per modelar la interacció en sistemes d’informació o de transaccions com, per exemple, les comandes per telèfon o les reserves de viatges; aquests corpus existeixen per al castellà i el català i s’han desenvolupat, en general, com a part de les activitats de grups dedicats al tractament de senyals.

Entre els grups de recerca a l’Estat Espanyol amb una dedicació especial al desenvolupament de corpus per a la fonètica i les tecnologies de la parla poden esmentar-se els següents:

Referències i fonts d’informació


Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Last updated: 21/8/03 22:42