La representación fonética segmental de corpus orales


Representación fonética de corpus orales


Alfabetos fonéticos convencionales

Sistemas internacionales

El Alfabeto Fonético Internacional (IPA, International Phonetic Alphabet)

Las tradiciones nacionales

El alfabeto fonético de la Revista de Filología Española (RFE)

Transcripción fonética

Transcripción fonética

up arrow

Alfabetos fonéticos para el intercambio electrónico

La codificación de los símbolos del AFI (Alfabeto Fonético Internacional)

Para cada uno de los símbolos del Alfabeto Fonético Internacional se ha definido un número (“número AFI”) que puede relacionarse también con los códigos ASCII (American Standard Code for Information Interchange).

Las equivalencias entre símbolos, números AFI y códigos ASCII forman parte de las convenciones conocidas como CRIL (Computer Representation of Individual Languages) desarrolladas durante el congreso para la revisión del AFI celebrado en en Kiel (Alemania) en 1989.

Actualmente, si se dispone de un navegador y de un sistema operativo compatible con UNICODE y se instalan las fuentes adecuadas, es posible visualizar los símbolos del AFI.

The International Phonetic Alphabet in Unicode

SAMPA (SAM Phonetic Alphabet)

ESPRIT 1541 SAM (Speech Assessment Methods) (1987-1989)

Versiones de SAMPA en danés, neerlandés, inglés, francés, alemán e italiano; 1992: noruego y sueco; 1993: español, griego y portugués; 1996: extensión a las lenguas de los países de la Europa del Este en el proyecto BABEL.

Sistema desarrollado para la transcripción del corpus multilingüe EUROM y adoptado para la transcripción de corpus orales para las tecnologías del habla en el contexto europeo.

Conjunto de equivalencias entre los símbolos del AFI (Alfabeto Fonético Internacional) y códigos ASCII (American Standard Code for Information Interchange), restringido al uso de caracteres de 7 bits.

SAMPA (SAM Phonetic Alphabet) (1987-1989)

Principio fonológico: se emplean únicamente símbolos distintos en el caso de segmentos con valor diferencial.

En algunas lenguas se introducen símbolos para la representación de alófonos:

SAMPA ( SAM Phonetic Alphabet)

X-SAMPA Extended SAM Phonetic Alphabet

Equivalencias en códigos ASCII (American Standard Code for Information Interchange) para la totalidad de los símbolos del AFI (Alfabeto Fonético Internacional).

Incluye diacríticos y marcas tonales.

X-SAMPA Extended SAM Phonetic Alphabet

Worldbet

“any spectrally and temporally distinct speech sound (not including pitch) which is phonemic in some language should have a separate base symbol”

Hieronymus, J. L. (1994). ASCI phonetic symbols for the world's languages: Worldbet. Murray Hill, NJ: AT&T Bell Laboratories. Consultado en http://www.ling.ohio-state.edu/~edwards/WorldBet/worldbet.pdf

Símbolos de base: concatenación de un símbolo del AFI (Alfabeto Fonético Internacional) con una serie de diacríticos.

Posibilidad de representación de una gran variedad de alófonos presentes en los inventarios fonéticos de las lenguas del mundo, incluyendo símbolos inexistentes en el AFI (Alfabeto Fonético Internacional): 209 símbolos compuestos de dos caracteres ASCII (American Standard Code for Information Interchange).

Utilizado en la transcripción de bases de datos multilingües que incluyen lenguas asiáticas, indias y africanas, además de europeas.

Utilizado en la transcripción de los corpus distribuidos por el CSLU (Center for Spoken Language Understanding, Oregon Graduate Institute).

Worldbet
http://dipaola.org/stanford/facade/lipsync/refbet.pdf
http://byuh.doncolton.com/courses/cs441/9504.refbet.pdf

Otros sistemas de transcripción fonética para el intercambio electrónico de textos

CPA (Computer Phonetic Alphabet) (1987-1989)

Desarrollado en el marco del proyecto ESPRIT Linguistic Analysis of European Languages.

CHILDES (Child Language Data Exchange System) (1987-1989)

Desarrollado para la transcripción del habla infantil.

PHONASCII: conjunto de símbolos fonológicos.

UNIBET: alfabeto fonético que permite una transcripción estrecha.

CHILDES

up arrow

Transcripción fonética segmental en español

Descripción fonética y fonológica del español

Consonantismo del español peninsular

Vocalismo del español peninsular

Descripción fonética y fonológica del español

Alfabetos fonéticos convencionales

El alfabeto fonético de la Revista de Filología Española (RFE)

El alfabeto fonético de la Revista de Filología Española (RFE)

Alfabetos fonéticos para el intercambio electrónico

Adaptación española de SAMPA (SAM Phonetic Alphabet)

ESPRIT 2104 Polyglot I (1992): primera adaptación del alfabeto fonético del proyecto SAM.

Trabajos sobre transcripción fonética automática en español.

Enríquez, E., y Casado, C. (1991). Hacia un algoritmo para la conversión automática de fonema en grafema en español. Anuario de Lingüística Hispánica, 7, 151-204.

ESPRIT 6819 SAM-A: adaptación española de SAMPA (1993)

Alfabeto fonético utilizado en el proyecto ALBAYZÍN.

Uso en la transcripción de corpus para aplicaciones a las tecnologías del habla.

Uso en algoritmos de transcripción fonética automática.

Wells, J. (1996). SAMPA for Spanish. London: Division of Psychology and Language Sciences, University College London. (Obra original publicada en 20/09/1995) Consultado en http://www.phon.ucl.ac.uk/home/sampa/spanish.htm

Llisterri, J., y Mariño, J. B. (1993). Spanish adaptation of SAMPA and automatic phonetic transcription. SAM-A/UPC/001/v1. ESPRIT project 6819 (SAM-A Speech Technology Assessment in Multilingual Applications). Consultado en http://liceu.uab.cat/~joaquim/publicacions/SAMPA_Spanish_93.pdf

Cuadro de símbolos empleados en SAMPA para la transcripción del español

SALA (SpeechDat across Latin America)

Adaptación de SAMPA para la transcripción del español de América.

Realizada en el marco del proyecto SALA (Speech Dat across Latin America), orientado a la creación de corpus orales para el desarrollo de las tecnologías del habla.

Mariño, J. B., y Moreno, A. (2000). Spanish SAMPA set. SALA (SpeechDat across Latin America) Doc 2. February 2000. Barcelona: Universitat Politècnica de Catalunya.

Cuadro de símbolos empleados en SALA

Uso de Worldbet para la transcripción del español

Selección de símbolos de Worldbetpara la transcripción fonológica del español.

La transcripción alofónica:

Hieronymus, J. L. (1997). Worldbet phonetic symbols for multilianguage speech recognition and synthesis. AT&T Bell Labs Technical Report. Murray Hill, NJ: AT&T Bell Laboratories.

Cuadro de símbolos empleados en Worldbet para la transcripción del español

Sistemas de transcripción fonética adaptados a corpus específicos

Transcripción de variantes geográficas

Variedades Vernáculas Malagueñas

Sistema de transcripción basado en la adaptación del sistema de la RFE (Revista de Filología Española) al ALEA (Atlas Lingüístico y Etnográfico de Andalucía).

Entorno de transcripción asistida que permite crear símbolos fonéticos rasgo a rasgo mediante macros que introducen diracríticos, diseñado para permitir la transcripción de las hablas meridionales.

Futuro método de transcripción automática por reglas: utilización de SAMPA (SAM Phonetic Alphabet) para la transcripción ancha, manteniendo el alfabeto fonético del ALEA (Atlas Lingüístico y Etnográfico de Andalucía) para la transcripción estrecha.

León, L. (1994). Transcripción fonética asistida por ordenador. En M. Alvar, y J. A. Villena (Eds.), Estudios para un corpus del español. (pp. 145-85). Málaga: Universidad de Málaga.

Transcripción de diccionarios electrónicos

Sistema de Diccionarios Electrónicos del Español

Transcripción automática de una base de datos léxica.

Ríos, A. (1999). La transcripción fonética automática del diccionario electrónico de formas simples flexivas del español: Un estudio fonológico en el léxico. Estudios de Lingüística Española, 4. Consultado en http://elies.rediris.es/elies4/
up arrow

 Representación fonética de corpus orales

Transcripción fonética automática


La representación fonética segmental de corpus orales
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Last updated: