La segmentación y el etiquetado de corpus mediante Praat

Introducción a Praat



El etiquetado (o transcripción) de una señal sonora

Un etiquetado o transcripción puede realizarse en distintos niveles, según la información que se desee representar. Cada nivel corresponde a un Tier en un TextGrid. El TextGrid es el documento en el que el programa Praat almacena el etiquetado o la transcripción.

En el ejemplo que se presenta a continuación, se muestran la forma de onda, el espectrograma con la curva melódica y la curva de intensidad superpuestas, y un TextGrid con un único nivel de etiquetado (o transcripción), representado en un Tier denominado “segmentos”, en el que se etiquetan (o transcriben) cada uno de los segmentos (vocales y consonantes) del enunciado.

etiquetat_Praat_1_nivell.jpg

En el ejemplo siguiente se muestran la forma de onda, el espectrograma con la curva melódica y la curva de intensidad superpuestas, y un TextGrid con tres niveles de etiquetado (o transcripción) representados en tres Tier denominados “segmentos”, “sílabas” y “palabras”.

etiquetat_Praat_3_nivells.jpg

Creación de un TextGrid

Una vez abierto el fichero que se desea segmentar y etiquetar (o transcribir), se selecciona este fichero en la ventana Objects y se elige el menú Annotate.

Etiquetat Praat

En el menú Annotate se selecciona la opción To TextGrid...

Etiquetat Praat

Al seleccionar esta opción se abre una nueva ventana Sound: To TextGrid.

Etiquetat Praat

En el recuadro correspondiente a All tier names se escriben los nombres de los niveles en los que se desee etiquetar (o transcribir) el corpus, es decir, los nombres de los Tier(por ejemplo, “segmento”, “palabra”, etc.), reemplazando el texto “Mary John bell” que aparece por defecto.

En el recuadro Which of these are point tiers? se indican los niveles en los que se introducirá una etiqueta en un punto concreto en el tiempo (por ejemplo, un símbolo correspondiente a la altura tonal). Si únicamente se introducirán etiquetas en las fronteras entre elementos –marcas de segmentación dentro de las que se escribirán las transcripciones–, debe dejarse este recuadro en blanco, borrando la palabra “bell”.

Mediante el ejemplo que se muestra a continuación, se obtendría un TextGrid con un único nivel de etiquetado (o transcripción), es decir, un único Tier, denominado “segmentos”, término que se ha introducido reemplazando el texto “Mary John bell” que aparece por defecto.

Etiquetat Praat

Con el ejemplo siguiente, se obtendría un TextGrid con tres niveles de etiquetado (o transcripción), es decir, tres Tier, denominados “alófono”, “sílaba” y “palabra”, términos que se han introducido reemplazando el texto “Mary John bell” que aparece por defecto.

Etiquetat Praat

La creación de un TextGrid también puede realizarse automáticamente para un conjunto de ficheros que se encuentren en un mismo directorio o carpeta con el script “text_grid_maker” de K. Crosswhite.

Creación automática de un TextGrid

Segmentación de la señal

A continuación, se selecciona conjuntamente el objeto con el sonido y el TextGrid y se elige la opción Edit en el menú de la derecha.

Etiquetat Praat

El resultado es una nueva ventana, con la señal sonora y un TextGrid que contiene tres Tier correspondientes a los niveles de etiquetado o transcripción previamente definidos (en este caso “alófono”, “sílaba” y “palabra”). En el TextGrid se marcan los límites entre unidades y se escriben los símbolos de transcripción fonética u ortográfica.

Etiquetat Praat

Al situar el cursor en el lugar donde se desea marcar un límite (Boundary), aparece una línea vertical gris y un punto gris en cada uno de los niveles de etiquetado. El nivel (o Tier) en el que se está etiquetando o transcribiendo aparece con el nombre en rojo a la derecha y una manecilla a la izquierda.

Etiquetat Praat

Con un clic sobre el punto gris se fija el límite que se desea marcar, que aparece, una vez marcado mediante un clic, en color rojo.

Etiquetat Praat

Con el mismo procedimiento se introducen las marcas de segmentación (Boundary o límites entre elementos) que se deseen en cada nivel o Tier. Una vez introducidas, las marcas de segmentación (límites) aparecen marcadas en azul.

Etiquetat Praat

Las marcas de segmentación pueden desplazarse seleccionando y arrastrando y también pueden editarse mediante los menús Interval y Boundary.

Etiquetat Praat

Etiquetat Praat

Etiquetado (transcripción) de la señal

La etiqueta (símbolo de transcripción fonética o carácter empleado en la representación ortográfica) se escribe en la ventana superior tras haber seleccionado el intervalo –que aparece señalado en color amarillo– entre dos marcas de segmentación (Boundary).

Etiquetat Praat

Para emplear símbolos fonéticos debe tenerse instalada la fuente Charis SIL (puede obtenerse desde la página de descarga de Praat o desde la página de SIL International) y deben utilizarse las convenciones descritas en los apartados “Phonetic symbols: consonants”, “Phonetic symbols: vowels” y “Phonetic symbols: diacritics” del manual de ayuda que se encuentra en el menú Help de Praat. Si el sistema operativo lo admite, pueden introducirse directamente símbolos fonéticos.

A la derecha de la ventana en la que se está realizando la anotación aparece el menú Help, en el que se encuentra un acceso directo a las tablas de símbolos fonéticos documentados en el manual del programa: Phonetic symbols.

Símbolos fonéticos

Con ello, se abre la página correspondiente del manual de ayuda del programa y se puede seleccionar una de las tres tablas de símbolos: “Phonetic symbols: consonants”, “Phonetic symbols: vowels” o “Phonetic symbols: diacritics”.

Símbolos fonéticos

En las tablas aparece la combinación que debe teclearse para obtener el símbolo fonético deseado.

Praat Help

Por ejemplo, tecleando en la ventana superior la combinación \nj se obtiene el símbolo correspondiente a la nasal palatal ɲ.

Etiquetat Praat

Como alternativa al menú de ayuda del programa, puede utilizarse el siguiente documento:

Correa, J. A. (2013). Díptico de alfabetos fonéticos: Alfabeto Fonético Internacional (IPA), Alfabeto X-SAMPA y Alfabeto Fonético de la Revista de Filología Española (contiene comandos para implementar el IPA en Praat). Bogotá: Instituto Caro y Cuervo. Consultado en http://www.bibliodigitalcaroycuervo.gov.co/id/eprint/962

La introducción de símbolos fonéticos puede llevarse a cabo mediante las convenciones de Praat (es decir, empleando las combinaciones que aparecen en los apartados “Phonetic symbols: consonants”, “Phonetic symbols: vowels” y “Phonetic symbols: diacritics” del manual de ayuda que se encuentra en el menú Help), pero si el sistema operativo del ordenador con el que se trabaja lo permite, pueden introducirse directamente símbolos fonéticos en la ventana en la que se escribe la transcripción. Para ello, puede utilizarse una paleta de caracteres, un visor de caracteres o un mapa de caracteres, según el sistema operativo empleado.

Etiquetat Praat

Conversión al formato Unicode

Si se desea importar el TextGrid a otras aplicaciones, puede ser necesario guardarlo en el formato Unicode. Para ello, en el menú Edit se selecciona la opción Convert entire TextGrid to Unicode.

Etiquetat Praat

Si existe una versión anterior del TextGrid ya guardada, debe volverse a guardar seleccionando la opción Write to text file en el menú Write de la ventana de objetos, tal como se explica a continuación.

Almacenamiento del TextGrid

Una vez finalizada la transcripción, en la ventana de objetos se selecciona el TextGrid y se guarda como un documento de texto, seleccionando la opción Write to text file en el menú Write.

Etiquetat Praat

Etiquetat Praat

El fichero de texto creado mediante este procedimiento puede abrirse nuevamente con Praat con la opción Read from file... en el menú Read.

Etiquetat Praat

Correa, J. A. (2014). Transcripción y etiquetado. En Manual de análisis acústico del habla con Praat (pp. 63-92). Bogotá: Instituto Caro y Cuervo. Consultado en http://www.bibliodigitalcaroycuervo.gov.co/id/eprint/998

Praat manual: Annotation

Praat manual: TextGrid

Introducción a Praat


La segmentación y el etiquetado de corpus mediante Praat
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Last updated: