Codificació i transcripció de corpus orals

Metodologia de recollida de corpus orals (1993-1994)


1. Codificació i transcripció dels corpus de llengua oral

1.1. Codificacions en anàlisi del discurs i en anàlisi de la conversa

En el marc de l’anàlisi del discurs i de la conversa s’han desenvolupat diverses convencions per a la transcripció de la llengua oral. Aquestes convencions depenen molt sovint de l’autor i no estan estandarditzades.

Els fenòmens que es codifiquen es poden agrupar de la manera següent:

(1) Elements segmentals: durada, qualitat fonètica, accent, respiració i elements que apareixerien a la forma estàndard i no es troben en l’enunciat;

(2) Síl·labes: frontera sil·làbica, allargament sil·làbic i pausa entre síl·labes;

(3) Paraules: frontera de paraula, paraules truncades, paraules que apareixen en forma no estàndard, paraules desconegudes, onomatopeies, paraules estrangeres, paraules lletrejades, acrònims i abreviatures, paraules amb més d’una forma gràfica, regularització ortogràfica, entonació a la paraula i accent a la paraula;

(4) Enunciats: frontera d’enunciat, interrupcions en l’enunciat, enunciats incomplets i modalitat;

(5) Unitats entonatives: grups entonatius, unitats entonatives no terminals i contorn melòdic final;

(6) Melodia: inflexions melòdiques en l’enunciat, nivell de l’alçada tonal (pitch), continuïtat, alçada tonal en la paraula, alçada tonal en la frase i rang de l’alçada tonal;

(7) Registre;

(8) Accent: parts accentuades de l’enunciat, síl·labes tòniques i àtones, pes de la síl·laba, accent tonal (pitch accent), prominència o èmfasi, accentuació no estàndard, incertesa en l’accent, tensió en el patró accentual i característiques del ritme;

(9) Intensitat: volum, intensitat relativa i intensitat absoluta;

(10) Velocitat d’elocució: velocitat relativa, velocitat absoluta i indicació del nombre de paraules per minut;

(11) Pauses: situació i durada pauses silencioses i pauses vocalitzades;

(12) Fenòmens vocals no lèxics: posició en relació amb els elements lèxics, tipus de fenòmen, qualitat de veu, crits, cant, xiulets i actituts pragmàtiques;

(13) Torns de paraula: començament del torn, transició entre enunciats, enunciats simultanis i relació entre els enunciats d’un mateix parlant;

(14) Comentaris a la transcripció: informació addicional, soroll de fons, música, fenòmens no comunicatius no vocals, activitats no verbals, tipus de discurs, codificació del text, canvi de codi (code switching) i traduccions;

(15) Dificultats en la transcripció: fals principi, dubte, tall, text no transcrit, elisió, interrupció en la gravació, paraula incompleta, enunciat incomplet, entonació incerta, transcripció incerta, transcripcions múltiples i transcripció impossible.

Referències

DU BOIS, J.W. (1991) «Transcription design principles for spoken discourse research», Pragmatics 1: 71-106

EDWARDS, J.A.- LAMPERT, M.D. (Eds) (1992) Talking Language: Transcription and Coding of Spoken Discourse. Hillsdale, N.J.: Lawrence Erlbaum Associates.

GUMPERZ, J.J.- BERENZ, N. (1992) «Transcribing conversational exchanges» in EDWARDS, J.A.- LAMPERT, M.D. (Eds) Talking Language: Transcription and Coding Methods for Language Research. Hillsdale, N.J.: Lawrence Erlbaum.

MacWHINNEY, B. (1991) The Childes Project: Tools for Analyzing Talk. Hillsdale, N.J.: Lawrence Erlbaum.

OCHS, E. (1979) «Transcription as Theory» in OCHS, E.- SCHIEFFELIN, B.B. (1979) Developmental Pragmatics. New York: Academic Press. pp. 43-72

1.2. Codificacions en lingüística de corpus

La lingüística de corpus no ha desenvolupat sistemes específics de codificació de la llengua oral, sino que s’ha inspirat en els sistemes desenvolupats per a l’anàlisi del discurs i de la conversa.

Un exemple de codificació seria el desenvolupat per al British National Corpus (BCN), que comprèn els elements següents: torns de paraula, superposició d’enunciats, frontera d’enunciats, pauses, pauses vocalitzades, accent, dialecte i formes no estàndard, trets paralingüístics, sons no verbals, comentaris contextuals, fragment poc clar o inaudible, paraules no familiars, paraules lletrejades, acrònims i abreviatures, converses telefòniques, codis per a mantenir l’anònim i text llegit.

Referències

BRITISH NATIONAL CORPUS Spoken Corpus Transcription Guide TGCW 21, 18 december 1991

1.3. La codificació de la Text Encoding Initiative (TEI)

La Text Encoding Initiative (TEI) ha desenvolupat un sistema estandarditzat de codificació de la llengua oral. Els elements que es codifiquen són els següents:

(1) Capçalera: títol, informació sobre la gravació, convencions d’edició, entorn i participants;

(2) Divisions en el discurs: tipus d’unitat, durada i organització lògica i temporal del contingut;

(3) Elements estructurals bàsics: enunciat entre pauses o canvi de locutor, pausa, fenomen vocal no lèxic, fenomen comunicatiu no vocal, fenomen no comunicatiu no vocal i text escrit;

(4) Informació contextual;

(5) Informació temporal: principi, final i durada d’un element estructural;

(6) Caracterització de l’enunciat: parlant i transició - sense pausa, amb superposició, amb pausa -;

(7) Canvis en les cararístiques paralingüístiques d’un enunciat: canvis de velocitat de locució, d’intensitat, d’alçada tonal, de tensió o de patró accentual, de ritme i de qualitat de la veu.

Simultàniament, en el marc de la TEI s’han elaborat recomanacions per a la transcripció en els següents aspectes: superposició de parlants, forma de la notació ortogràfica, prosòdia i fenòmens propis de la parla espontània - pauses vocalitzades, paraules repetides o truncades, correccions i reformulacions-.

Referències

BALLESTER, A.- RESTOY, C.- SANTAMARIA, C. directed by MARCOS MARIN, F. Transcription conventions used for the corpus of spoken contemporary Spanish. ms.

SPERBERG-McQUEEN, C.M.- BURNARD, L. (Eds) (1992) Guidelines for the Encoding and Interchange. Draft Version 2, April 23, 1992. Document Number TEI P2, Chapter 34 «Base Tag Set for Transcription of Spoken Texts ». Association for Computational Linguistics / Association for Computers and the Humanities / Association for Literary and Linguistic Computing. Chicago and Oxford.

2. Transcripció i codificació fonètica de corpus orals

Transcripció: ús de lletres i símbols per a representar els sons de la parla de manera consistent i explícita.

Codificació: assignació d’un conjunt de bits a un determinat caràcter per a permetre la seva representació interna en l’ordinador i l’intercanvi entre sistemes informàtics.

2.1.Codificació de la trancripció fonètica

2.1.1. La codificació de l'AFI (Alfabet Fonètic Internacional)

L’intercanvi de textos transcrits mitjançant l'AFI fa necessària una codificació dels símbols. A cada símbol i diacrític de l'AFI se li assigna un número (IPA number) i un nom (IPA name) que l’identifica i que es fa servir en l’intercanvi electrònic; aquest número es pot relacionar amb els codis ASCII mitjançant una taula d’equivalències.

Referències

ESLING, J.H. (1988) «Computer coding of IPA symbols and detailed phonetic representations of computer databases», Journal of the International Phonetic Association 18,2: 99-106

ESLING, J. (1990) «Computer Coding of the IPA: Supplementary Report», Journal of the International Phonetic Association 20,1: 22-26

IPA (1989) «The IPA 1989 Kiel Convention Workgroup 9 report: Computer Coding of IPA symbols and Computer Representation of Individual Languages», Journal of the International Phonetic Association 19,2: 81-92

2.1.2. La codificació en ASCII dels símbols de transcripció

El codi ASCII (American Standard Code for Information Interchange) assigna una determinada combinació de bits als signes, símbols, lletres i números, de manera que els caràcters es representen en codi binari. Constitueix un estàndard aprovat per l'ISO.

En diversos projectes s’han desenvolupat alfabets fonètics - machine readable character sets - que utilitzen els símbols que actualment estan codificats en codis ASCII. L'ASCII és limitat a 97 caràcters que es poden imprimir si cada símbol es codifica mitjançant 7 bits. La conversió d’un sistema a l’altre es pot fer mitjançant una taula.

Referències

PARKINSON, S.- BLADON, A. (1987) «Microcomputer-assisted phonetics teaching and phonetics word-processing: A survey », Journal of the International Phonetic Association 17,2: 83-93

WELLS, J.C. (1987) «Computer Coded Phonetic Transcription» ,Journal of the International Phonetic Association 17,2: 94-114.

2.2. Transcripció de corpus orals

2.2.1. Transcripció dels elements segmentals

Poden establir-se tres nivells de transcripció: nivell I: forma ortogràfica; nivell II: representació fonèmica (ampla) corresponent a la forma canònica de les paraules aïllades (citation form); nivell III; transcripció fonètica (estreta) corresponent a la realització fonètica de l’enunciat. Amb això es pot establir la relació entre els nivells de transcripció i entre la transcripció i el senyal sonor.

Referències

TILLMANN, H.G.- POMPINO-MARSCHALL, B. (1993) «Theoretical Principles Concerning Segmentation, Labelling Strategies and Levels of Categorical Annotation for Spoken Language Database Systems» in Eurospeech'93. 3rd European Conference on Speech Communication and Technology. Berlin, Germany, 21-23 September 1993. Vol. 3 pp. 1691-1694

2.2.2.1. PHONASCII

PHONASCII és un sistema desenvolupat en el marc del projecte CHILDES (Child Language Data Exchange System) per tal de crear una base de dades de parla infantil en transcripció fonètica. Consta d’un alfabet per a la transcripció fonèmica (UNIBET) i d’un per a la transcripció fonètica consistent en segments, diacrítics i elements suprasegmentals.

Referències

ALLEN, G. (1981) «PHONASCII» in MacWHINNEY, B. The Childes Project: Tools for Analyzing Talk. Hillsdale, N.J.: Lawrence Erlbaum. pp. 71-119

ALLEN, G.D. (1988) «The PHONASCII System», Journal of the International Phonetic Association 18,1: 9-25.

2.2.2.2. SAMPA (SAM Phonetic Alphabet)

SAMPA és el conjunt de símbols de transcripció llegible per ordinador desenvolupat en el marc del projecte SAM. SAMPA associa codis ASCII als símbols de l'AFI.

SAMPA es defineix com un sistema de representació fonèmica, de manera que els símbols s’utilitzen per a reflectir les oposicions distintives a l’interior de cada llengua. Per tant, els símbols no tenen un valor comú entre llengües ni representen un únic so en una llengua. Les difererències fonètiques es poden representar mitjançant alguns al·lòfons que han estat codificats. o mitjançant diacrítics.

En el projecte SAM es parla de transcripció fonotípica (phonotypical) per a referir-se a la representació alofònica derivada per regles contextuals a partir de la forma canònica de la paraula.

Referències

SAM (1992) Speech Acquisition and Annotation Protocols and Index of Mnemonics. Doc. no. SAM-UCL-018. Final version. 15 February 1992

SAM (1992) «Speech acquisition and Annotation Protocols and Index of Mnemonics (SAM-UCL-018)- Section IV: SAMPA» in SAM User Guide to ETR Tools. ESPRIT PROJECT 2589 ( SAM) Multilingual Speech Input/Output Assessment, Methodology and Standardisation. Ref, SAM-UCL-G007.

WELLS, J.- BARRY, W.- GRICE, M.- FOURCIN, A.- GIBBON, D. (1992) Standard Computer-Compatible Transcription. SAM Stage Report Sen.3 SAM UCL-037, 28 February 1992. In SAM (1992) ESPRIT PROJECT 2589 (SAM) Multilingual Speech Input/Output Assessment,Methodology and Standardisation.Final Report. Year Three: 1.III.91-28.II.1992. London: University College London.

WELLS, J.C. (1989) «Computer-coded phonemic notation of individual languages of the European Community», Journal of the International Phonetic Association 19,1: 31-54

WELLS, J.C. (1989) «First appraisal of SAMPA» in SAM Esprit Project 1541 (SAM) Multilingual Speech Input/Output: Assessment, Methodology and Standardisation. Extension Phase. Final Report. 1 April 1988- 28 February 1989. pp.298-303

WELLS, J.C. (1993) «An update on SAMPA», COCOSDA Meeting, Berlin, September 1993.

2.2.2. Transcripció dels elements suprasegmentals

Els sistemes de transcripció de la llengua oral desenvolupats en el marc de l’anàlisi del discurs i de la conversa inclouen convencions per a la transcripció dels elements suprasegmentals. Tot i així s’han desenvolupat altres sistemes com INTSINT (D. Hirst, Aix-en-Provence) o PROSPA (M.Selting i D. Gibbon, Bielefeld).

Referències

HIRST, D. - DI CRISTO, A. (en premsa) Intonation Systems. A Survey of 20 Languages. Cambridge: Cambridge University Press.

KNOWLES, G.- LAWRENCE, L. (1987) «Automatic intonation assignment» in GARSIDE, R.- LEECH, G.- SAMPSON, G. (Eds) The Computational Analysis of English: A Corpus-based Approach. London: Longman. pp. 139-148

SELTING, M. (1987) «Descriptive categories for the auditive analysis of intonation in conversation», Journal of Pragmatics 11: 777-791

WELLS, J.- BARRY, W.- GRICE, M.- FOURCIN, A.- GIBBON, D. (1992) Standard Computer-Compatible Transcription. SAM Stage Report Sen.3 SAM UCL-037, 28 February 1992. In SAM (1992) ESPRIT PROJECT 2589 (SAM) Multilingual Speech Input/Output Assessment,Methodology and Standardisation.Final Report. Year Three: 1.III.91-28.II.1992. London: University College London.

2.2.2.1. TOBI (TOnes and Break Indices)

TOBI és un sistema desenvolupat amb una base fonològica. Per a la transcripció s’utilitzen 5 estrats o nivells (tiers): ortogràfic, tonal - representa les variacions de Fo en termes d’accent tonal (pitch accent) -, break-index - representa el grau de disjuntura entre les paraules de la representació ortogràfica- i miscel·lani.

Referències

HIRSCHBERG, J.- BECKMAN, M. (1992) Report on proposed transcription system and some recommendations.

2.2.2.2. SAMPROSA (SAM PROSodic Alphabet)

SAMPROSA es un sistema de transcripció prosòdica desenvolupat en el marc del projecte SAM.

Els símbols utilitzats tenen una definició en terme fonètics, l’inventari és universal i els símbols es poden combinar segons regles universals o específiques d’una llengua.

Els símbols de transcripció cobreixen les àrees següents: to local, to global, to terminal, to nuclear, durada, accent, pausa i límits entre unitats.

Referències

WELLS, J.- BARRY, W.- GRICE, M.- FOURCIN, A.- GIBBON, D. (1992) Standard Computer-Compatible Transcription. SAM Stage Report Sen.3 SAM UCL-037, 28 February 1992. In SAM (1992) ESPRIT PROJECT 2589 (SAM) Multilingual Speech Input/Output

3. Etiquetat de corpus orals

Per etiquetat (labeling) s’entén l’alineació temporal (alignment) de símbols de transcripció fonètica o de trets fonètics amb segments de l’ona sonora; l’operació és, per tant, posterior a la segmentació del senyal. L’etiquetat pot ésser manual, semi-automàtic o automàtic.

Poden distingir-se diversos nivells d’etiquetat:

nivell físic - les etiquetes es defineixen únicament en termes de propietats físiques del senyal: periodicitat, soroll d’alta freqüència, nasalitat, silenci, canvis espectrals... -;

nivell acústic - fonètic - les etiquetes descriuen el senyal acústic en termes de característiques fonètiques: oclusió, explosió, aspiració, fricció, glide, nasal...-;

nivell de transcripció fonètica estreta - les etiquetes descriuen el senyal en termes d’un conjunt de símbols de transcripció fonètica-;

nivell fonèmic - les etiquetes representen sons distintius d’una llengua; la transcripció pot fer-se de les formes canòniques de la paraula o indicant els fenòmens propis de la parla contínua -;

nivell prosòdic - les etiquetes descriuen característiques suprasegmentals del senyal -. Els tres nivells es poden relacionar.

Referències

BARRY, W.- FOURCIN, A.J. (1992) «Levels of Labelling», Computer Speech and Language 6: 1-14

3.1. Els estàndards sam

En el marc del projecte SAM s’han desenvolupat diverses eines per a l’etiquetat : PTS permet l’anàlisi acústica del senyal i l’assignació d’etiquetes; DKISALA (danès), ELABSEG (noruec) IRIT-SALA (SAPHO) (francès) són sistemes d’etiquetat (semi-) automàtic que alineen una transcripció en SAMPA amb el senyal acústic corresponent; ELSA compara l’etiquetat manual i l’etiquetat automàtic del mateix senyal.<

Referències

AUTESSERRE, D.- PÉRENNOU, G.- ROSSI, M. (1989) «Methodology for the transcription and labeling of a speech corpus», Journal of the International Phonetic Association 19,1: 2-15

ERP, A. van- HOUBEN, C.- BARRY, B.- GRICE, M.- BOË, L.J.- BRAUN, G.- COSI, P.- DYHR, N.- PÉRENNOU, G.- VIGOUROUX, N.- AUTESSERRE, D. (1987) «A unified approach to the labelling of speech: First multilingual results» in TUBACH, J.P.- MARIANI, J.J. (Eds) Eurospeech 89. European Conference on Speech Communication and Technology. Paris, September 1989. Edinburgh: CEP Consultants Ltd. vol 2 pp. 88-91

SAM (1992) User Guide to ETR Tools. ESPRIT PROJECT 2589 ( SAM) Multilingual Speech Input/Output Assessment, Methodology and Standardisation. Ref, SAM-UCL-G007.

3.2. Els treballs derivats de SAM

L’etiquetat es basa en un conjunt de trets acústics-fonètics que s’assignen en funció de les característiques presents a l’ona sonora. Els trets són multilingües. La segmentació i l’etiquetat es porten a terme semi-automàticament..

En etiquetats de bases de dades multilingües es parla de polifonemes per a referir-se a segments de llengües diferents que comparteixen una estructura acústica equivalent i poden ésser descrits amb el mateix conjunt de trets.

Referències

BARRY, W.- DALSGAARD, P. (1993) «Speech Database Annotation. The importance of a Multi-Lingual Approach» in Eurospeech'93. 3rd European Conference on Speech Communication and Technology. Berlin, Germany, 21-23 September 1993. Vol. 1 pp. 13-22

DALSGAARD, P.- ANDERSEN, O.- BARRY, W. (1991) «Multi-lingual acoustic-phonetic features for a number of European languages» in Eurospeech 91. 2nd European Conference on Speech Communication and Technology. Genova, Italy, 24-26 September 1991. vol 2 pp. 685-688

TILLMANN, H.G.- POMPINO-MARSCHALL, B. (1993) «Theoretical Principles Concerning Segmentation, Labelling Strategies and Levels of Categorical Annotation for Spoken Language Database Systems» in Eurospeech'93. 3rd European Conference on Speech Communication and Technology. Berlin, Germany, 21-23 September 1993. Vol. 3 pp. 1691-1694


Codificació i transcripció de corpus orals - Metodologia de recollida de corpus orals (1993-1994)
Joaquim Llisterri, Universitat Autònoma de Barcelona
http://liceu.uab.cat/~joaquim/language_resources/corpus_93/codificacio_93.html
Last updated: 30/06/94

Creative Commons License
This work is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 3.0 License.