Estàndards i iniciatives en corpus orals

Metodologia de recollida de corpus orals (1993-1994)


1. Iniciatives europees en el camp dels corpus

1.1. Network of European Reference Corpora (NERC)

NERC (1991-1993) és una iniciativa finançada per la CCE en la qual participen 6 centres de recerca europeus. Els objectius són: una aproximació científica i metodològica comuna al disseny de corpus i la recerca de les millors estratègies per a la construcció de corpus tant en el nivell nacional com l’internacional.

1.2. Expert Advisory Group on Language Engineering Standards ( EAGLES)

1.2.1. Estructura general

EAGLES (1992-1995) és un grup de treball promogut per la DGXIII de la CCE en el marc de les accions horitzontals del programa LRE (Linguistic Research Engineering). La supervisió del programa corre a càrrec d’un Management Board en el qual estan representats els principaks projectes europeus amb finançament comunitari i les associacions europees relacionades amb la tecnologia de la veu i el processament del llenguatge natural. La coordinació del grup corre a càrrec de la Universitat de Pisa.

L’activitat d'EAGLES es basa en cinc grups de treball: Text Corpora, Computational Lexicons, Linguistic Formalisms, Evaluation and Assessment i Spoken Language.

1.2.2. Objetius generals

«Definition of specifications and guidelines for description and representation of linguistic resources: methods for assessment of language products and services»

«EAGLES will promote and accelerate cooperation and consensus building in specific areas of language engineering in Europe

EAGLES will produce pre-normative specifications and guidelines for the description and representation of linguistic knowledge and data

The group will play an active role in furthering harmonisation of the methods and formats used for encoding and interchange of lingustic knowledge and data

EAGLES will produce a set of guidelines based on borad consensus which will be made publicily available and to which European and national R&D initiatives will be invited to adhere

EAGLES will provide input to national and European standardization bodies».

1.2.3. Text Corpora Working Group

Participen en el grup GSI-ERLI, SITE, University of Lancaster, University of Birmingham, Instituto Cervantes, University of Münster, Universidad Autónoma de Madrid, ISSCO, i ILC - Pisa.

El grup ha establert un programa de treball encaminat a la definició d’estàndards pel que fa a la tipologia de textos i de corpus, representació textual, anotació lingüística, documentació i disseminació, eines per al tractament de corpus i transcripció de corpus orals. Els objectius finals per a cadascuna de les tasques són:

1.2.3.1. Tipologia de textos i de corpus

Desenvolupament d’un conjunt de paràmetres per a la classificació dels textos inclosos en un corpus i per a la classificació de corpus.

1.2.3.2. Representació textual

Definició d’un nivell mínim de codificació que han d’assolir els textos per a que es puguin considerar textos estandarditzats no només pel que fa a la informació descriptiva sino també a la presentació i a l’edició.

1.2.3.3. Anotació lingüística

Desenvolupament d’una notació mínima consensuada en el nivell morfo-sintàctic i avaluació de les possibilitats d’altres tipus d’anotació.

1.2.3.4. Documentació i disseminació

Desenvolupament d’un nivell mínim de documentació sobre un determinat corpus i desenvolupament d’indicacions generals per als grups interessats en el desenvolupament del corpus.

1.2.3.5. Eines per al tractament de corpus

Definició d’una sèrie d’utilitats que es puguin considerar estàndards en el tractament de corpus.

S’han considerat també dos camps de treball addicionals:

1.2.3.6. Corpus paral·lels

Desenvolupament de corpus multilingües en paral·lel.

1.2.3.7. Textos orals

En col·laboració amb el grup de trebal dedicat a la llengua oral es desenvolupen indicacions específiques per la transcripció, anotació i tractament de corpus orals en el nivell simbòlic.

1.2.4. Spoken Language Working Group

El grup de treball de llengua oral pretén de consolidar els resultats d’estandardització aconseguits amb el projecte ESPRIT SAM i de fer arribar un conjunt de propostes a la comunitat científica internacional. Per a fer-ho es divideix en diversos grups de treball, entre els quals són rellevants per al futur treball en corpus el següents:

1.2.4.1. Disseny i representació

L’objectiu és de definir recomanacions per al disseny i la creació de bases de dades orals i per a la representació fonètica, des de la forma ortogràfica fins a l’etiquetat del senyal sonor.

1.2.4.2. Caractterització i descripció lingüística

El grup treballa sobre la transcripció i anotació fonètica de corpus orals - tant en el nivell segmental com suprasegmental- i en la informació fonètica necessària en el lexicó.

1.2.4.3. Caracterització i descripció física

L’objectiu és elaborar recomanacions sobre les característiques dels locutors, l’entorn acústic, el transductors, els canals i la reproducció en el procés de constitutució de corpus i bases de dades orals.

1.2.4.4. Formats i eines

Aquest subgrup es proposa de preparar recomanacions sobre el hardware d’adquisició, els formats, el software per anotació, l’organització i la distribució de corpus orals.

Referències

«EAGLES: Stretching its wings», Language Industry Monitor 15 (1993):14

«EAGLES Working Groups Report: Text Corpora Working Group / Spoken Language Working Group», ELSNews 2,2 (1993) : 4-5

BRINKHOFF, N. (1993) "Towards standards in language engineering: EAGLES", DGXIII Magazine pp. 25-27

2. Iniciatives internacionals d’estandardització en el camp dels corpus

2.1. Text Encoding Initiative (TEI )

2.1.1. Estructura general

La TEI és un projecte internacional iniciat el 1988 amb una durada prevista de 4 anys promogut per la Association for the Computers and the Humanities (ACH), la Association for Computational Linguistics (ACL) y la Association for Literacy and Linguistic Computing (ALLC). El projecte està finançat pel US National Endowment for the Humanities, la DG XIII de la CCE i la Andrew W Mellon Foundation. El treball es realitza en quatre comissions (Text Documentation, Text Representation, Text Analysis and Interpretation, Metalanguage and Syntax). Una primera versió de les Guidelines for the Encoding and Interchange of Machine-Readable Texts es va publicar el 1990 i una segona va començar a aparèixer el juny de 1992. L’edició dels documents és a càrrec de C.M. Sperberg-McQueen (Illinois) i de L. Burnard (Oxford).

2.1.2. Objectius

«The goal of the TEI is to develop and disseminate a clearly defined format for the interchange of machine-readable texts . . . This interchange format is intended to specify how texts should be encoded or marked up . . . The use of specific types of delimiters to distinguish markup from text, the use of specific delimiter characters, and the use of specific tags to express specific information are all specified by this interchange format, which is closely based on the international standadrd ISO 8879 Standard Generalized Mark-up Language SGML» (TEI P1 v.1.1 p. ix).

2.1.3. Desenvolupaments

2.1.3.1. Standard Generalized Mark-up Language (SGML)

Es un estàndar ISO 8879, consistent en un llenguatge formar per a la definició d’esquemes de marcat que permetin distingir el contingut del text que es codifica de les marques que assenyalen l’estructura.

Referències

SMITH, J.N. (1987) «The Standard Generalized Markup Language (SGML) for Humanities Publishing», Literary and Linguistic Computing 2,3: 171-175

2.1.3.2. Descripció lingüística del text

La TEI ha desenvolupat una sèrie de formalismes per a la descripció morfològica i sintàctica del text i també convencions de transcripció de la llengua oral.

2.1.3.3. Tipus de text

La TEI ha desenvolupat recomanacions per a la codificació de diferents tipus de textos: corpus lingüístics, textos orals, versos, teatre, narracions, diccionaris, glossaris terminològics i documents comercials.

Referències

SPERBERG-McQUEEN, C.M.- BURNARD, L. (Eds) (1990) Guidelines for the Encoding and Interchange of Machine-Readable Texts. Draft Version 1.0. Association for Computational Linguistics / Association for Computers and the Humanities / Association for Literary and Linguistic Computing. Chicago and Oxford

SPERBERG-McQUEEN, C.M.- BURNARD, L. (Eds) (1990) Guidelines for the Encoding and Interchange of Machine-Readable Texts. Draft Version 1.1. Association for Computational Linguistics / Association for Computers and the Humanities / Association for Literary and Linguistic Computing. Chicago and Oxford.

3. Els corpus orals

3.1.Iniciatives europees d’estandardització en el camp dels corpus orals

3.1.1. Speech Assessment Methodology (SAM)

El projecte ESPRIT 2589 SAM Multilingual Speech Input/Output Assessment, Methodology and Standardisation es va desenvolupar entre 1989 i 1992, com a continuació del projecte ESPRIT 1541 del mateix nom i va continuar fins el 1993 com a ESPRIT 6819 SAM-A Speech Technology Assessment in Multilingual Applications, encara que amb uns objectius més reduits. La coordinació del projecte ha anat a càrrec de University College London.

El projecte SAM s’ha centrat en tres àrees de treball: avaluació de sistemes de síntesi de la parla, avaluació de sistemes de reconeixement de parla i creació de bases de dades.

3.1.1.1. Desenvolupament de bases de dades

En el marc del projecte SAM s’han desenvolupat les bases de dades EUROM.0 i EUROM.1 juntament amb una sèrie de programes per a l’adquisició, transcripció, anotació i tractament.
SESAM WORKSTATION
Es l’estació de treball estàndard equipada amb el hardware i el software necessari per a l’adquisició i processament de la parla.
EUROPEC
European Programme d'Enregistrement de Corpus

Es un software dissenyat per a facilitar la gravació de bases de dades orals. Europec permet diverses modalitats d’enregistrament i de presentació de les dades i automatitza el procés de gravació.

PTS
Progiciel de Traitement de Signal

Es un programa que permet escoltar, editar, analitzar i etiquetar el senyal acústic en una estació de treball SESAM.

RISE
RISE és el programa de gestió de la base de dades EUROM i permet recuperar fitxers de parla digitalitzada del corpus enregistrat.
SALA
Es un conjunt de programes que permeten l’etiquetat del senyal en cadascuna de les llengües del projecte.
SAMPA i SAMTRA
SAMPA és l’alfabet fonètic desenvolupat en el marc del projecte SAM utilitzant únicament codis ASCII. SAMTRA permet de verificar les tanscripcions fonètiques realitzades sobre el senyal i permet també de realitzar estadístiques de distribució de fonemes i difonemes.
EUROM.1
Consta del següent material fonètic: combinacions CVC(V) en les que s’inclouen les consonants inicials i finals juntament amb les vocals, llegides ailladament i en frase marc; dígits; paràgrafs curts.

EUROM.1 existeix actualment per al danès, holandès, anglès, francès, alemany, italià, noruec i suec. En el marc de SAM-A s’han preparat les versions en portuguès, grec i castellà.

Està previst que es difongui en format CD-ROM.

Referències

SAM (1989) EUROM.0 Technical Description. M. Grice, W. Barry. In SAM (1989) Esprit Project 1541 (SAM) Multilingual Speech Input/Output: Assessment, Methodology and Standardisation. Extension Phase. Final Report. 1 April 1988- 28 February 1989. pp. 179-207

SAM (1989) Linguistic Tools Working Group. In SAM (1989) Esprit Project 1541 (SAM) Multilingual Speech Input/Output: Assessment, Methodology and Standardisation. Extension Phase. Final Report. 1 April 1988- 28 February 1989. pp.247-329

SAM (1991) Enabling Technology and Research. In ESPRIT PROJECT 2589 (SAM) Multilingual Speech Input/output Assessment, Methodology and Standaridation, Interim Report. Year Two. 1.III.90-28.II.1991. Ref SAM-UCL-G003. pp. 18-27

SAM (1991) Speech Acquisition and Annotation Protocols and Index of Mnemonics. Document nº SAM-UCL-018. Second Draft, 20 february 1991.

SAM (1992) Enabling Technologies and Research. In ESPRIT PROJECT 2589 (SAM) Multilingual SPeech Input/Output Assessment, Methodology and Standardisation, Final Report, Year Three, 1.III.91-28.II.1992 Ref SAM-UCL-G004. pp. 20-37

SAM (1992) "Europec software V.4.1 User's Guide (SAM-ICP-045)" in SAM User Guide to ETR Tools. ESPRIT PROJECT 2589 (SAM) Multilingual Speech Input/Output Assessment, Methodology and Standardisation. Ref, SAM-UCL-G007.

SAM (1992) Guide to EUROM.1 Speech Database. Doc no. SAM-NPL-102, Final version 21 April 1992.

SAM (1992) Speech Acquisition and Annotation Protocols and Index of Mnemonics. Doc. no. SAM-UCL-018. Final version. 15 February 1992

3.2. Iniciatives internacionals d’estandardització en el camp dels corpus orals

3.2.1. Linguistic Data Consortium (LDC)

El LDC és una associació d’entitats americanas que tenen com a objectiu comú la recollida i distribució de corpus i bases de dades orals i escrites. La iniciativa està finançada en el marc del programa DARPA (Defense Advanced Research Projects Agency) i n'es responsable la Universitat de Pennsylvania.

Referències

Linguistic Data Consortium Newsletter. Philadelphia: University of Pennsylvania - Linguistic Data Consortium.

3.2.2. Coordinating Committee for Speech Databases and Assessment (COCOSDA)

3.2.2.1. Estructura general

COCOSDA és un comité internacional sorgit el 1991 per la necessitat de coordinar les activitats en el camp de l’avaluació de sistemes de síntesi i reconeixement i de la creació i disseminació de bases de dades. Es divideix en tres grups de treball: Working Group on Synthesis, Working Group on Recognition i Working Group on Databases.

3.2.2.2. eurococosda

Eurococosda és un projecte LRE finançat per la CCE que té com a objectiu permetre una acció unitària europea en el marc de COCOSDA.

3.2.2.3. Projectes

En el camp de les bases de dades s’han discutit i presentat diversos projectes:
Polyphone
Constituïda per 25-50 paraules aïllades enregistrades a través del telèfon per uns 5000 parlants. El projecte es desenvolupa en el marc de les activitats de diverses companyies telefòniques europees.
Transnational English Database (TED)
Constituïda a partir dels enregistraments de les comunicacions presentades a Eurospeech'93 (Berlin) per parlants natius i no natius de l’anglès.

Referències

ANN, S. (Ed) (1992) «Session Four: Databases» in JONES, K. - MARIANI, J. (Eds) Proceedings of the 1992 Workshop of the International Coordinating Committee on Speech Databases and Speech I/O Systems Assessment. Monday, 12 October 1992. Banff Springs Hotel, Banff, Canada. pp. IV.1-IV.11

CASTAGNERI, G. (Ed) (1991) Proceedings of the Workshop on International Cooperation and Standardization of Speech Databases and Speech i/O Assessment Methods. Chiavari 26-28 September 1991 (Italy). Organized by CESEL in cooperation with CEC DGXIII, ESCA, ESPRIT PROJECT 2589 (SAM)

DESCOUT, R.- DODDINGTON, G.- DOLMAZON, J.-M.- ITAHASHI, S. (1991) «Proposal for International Cooperation in Speech Corpora», in Workshop on International Cooperation and Standardization of Speech Databases and Speech I/O Assessment Methods, Chiavari (Italy), 26-28 September 1991.

JONES, K. - MARIANI, J. (Eds) (1992) Proceedings of the 1992 Workshop of the International Coordinating Committee on Speech Databases and Speech I/O Systems Assessment. Monday, 12 October 1992. Banff Springs Hotel, Banff, Canada.

MARIANI, J. (1993) «Report concerning the Fall 1992 Workshop and Meetings of the International Coordinating Committee on Speech Databases and Speech I/O Systems Assessment (COCOSDA) in Banff (Canada)», NESCA, The ESCA Newsletter 10: 12-14.


Estàndards i iniciatives en corpus orals - Metodologia de recollida de corpus orals (1993-1994)
Joaquim Llisterri, Universitat Autònoma de Barcelona
http://liceu.uab.cat/~joaquim/language_resources/corpus_93/estandards_93.html
Last updated: 30/06/94

Creative Commons License
This work is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 3.0 License.