Etiquetado de corpus orales



Objetivos

El objetivo de este ejercicio es aprender a etiquetar fonéticamente un corpus utilizando el programa Praat y el alfabeto fonético SAMPA (en su adaptación al español), así como comparar el etiquetado manual con el etiquetado realizado de forma automática mediante el programa EasyAlign.

up arrow

Etiquetado manual

Recursos

Instala la versión del programa Praat correspondiente al sistema operativo de tu ordenador.

Boersma, P. y Weenink, D. (2017). Praat: Doing phonetics by computer [Programa informático]. Amsterdam: Department of Language and Literature, University of Amsterdam. Consultado en http://www.praat.org/

El sistema de transcripción fonética que debe utilizarse es la adaptación al español de SAMPA:

Cuadro de símbolos empleados en SAMPA para la transcripción del español

Corpus de trabajo

Las grabaciones que aparecen en el ejercicio forman parte del corpus Ahumada:

Ortega, J., Gonzalez, J., y Marrero, V. (2000). AHUMADA: A large speech corpus in Spanish for speaker characterization and identification. Speech Communication, 31(2-3), 255-264. doi:10.1016/S0167-6393(99)00081-3

Descarga el siguiente documento sonoro (en formato .wav) y guárdalo en tu ordenador:

Segmentación y etiquetado

Familiarízate con el documento “Introducción a Praat: operaciones básicas” para aprender a abrir y a visualizar documentos sonoros.

Familiarízate con el documento “La segmentación y el etiquetado de corpus mediante Praat” para aprender a etiquetar los documentos sonoros.

Abre mediante el programa Praat el documento sonoro que has descargado, crea un TextGrid con un Tier denominado “segmentos” y realiza el etiquetado fonético de cada segmento (vocales y consonantes) utilizando los símbolos de la adaptación de SAMPA al español.

up arrow

Etiquetado automático

Recursos

Descarga el programa EasyAlign después de instalar Praat.

Goldman, J. P. (2012.). EasyAlign: Phonetic alignment with Praat. [Fonetiks] @ UniGe. Some phonetics at University of Geneva [Programa informático]. Genève: Département de Linguistique, Université de Genève. Consultado en http://latlntic.unige.ch/phonetique/easyalign.php

Instala EasyAlign en tu ordenador haciendo doble clic en el fichero EasyAlignSetup.exe. Si la instalación se ha efectuado correctamente, en el directorio de preferencias de Praat se habrá creado un directorio llamado plugin_easyalign. Las preferencias de Praat suelen encontrarse en:

Windows 7 - C:\Users\<nombre de usuario>\Praat
Windows XP - C:\Documents & Settings\<nombre de usuario>\Praat

El funcionamiento de EasyAlign requiere que el directorio plugin_easyalign se encuentre en el directorio de preferencias de Praat.

Una vez abierto Praat, debe comprobarse que en el menú Praat aparezca un submenú EasyAlign.

El sistema de transcripción fonética que utiliza EasyAlign en su versión para el español es la adaptación al español de SAMPA:

Cuadro de símbolos empleados en SAMPA para la transcripción del español

Goldman, J.-P. & Schwab, S. (2014). EasyAlign Spanish: an (semi-)automatic segmentation tool under Praat. En Y. Congosto, M. L. Montero, & A. Salvador (Eds.), Fonética experimental, educación superior e investigación (pp. 629-640). Madrid: Arco/Libros. Consultado en http://latlcui.unige.ch/phonetique/easyalign/GoldmanSchwab-EasyAlignSpanish-5thCFE-2011.pdf

Corpus de trabajo

Las grabaciones que aparecen en el ejercicio forman parte del corpus Ahumada:

Ortega, J., Gonzalez, J., y Marrero, V. (2000). AHUMADA: A large speech corpus in Spanish for speaker characterization and identification. Speech Communication, 31(2-3), 255-264. doi:10.1016/S0167-6393(99)00081-3

Descarga los siguientes documentos (un documento sonoro en formato .wav y un documento de texto en formato .txt) y guárdalos en tu ordenador:

Segmentación y etiquetado

Sigue las instrucciones que aparecen a continuación, o consulta la documentación sobre el programa:

Goldman, J.-P. (s. f.). Tutorial on EasyAlign. EasyAlign: phonetic alignment with Praat. Genève: Département de Linguistique, Université de Genève. Consultado en http://latlcui.unige.ch/phonetique/easyalign/tutorial_easyAlign_english.pdf

Goldman, J.-P. (2010). Tutoriel EasyAlign. EasyAlign: phonetic alignment with Praat. Genève: Département de Linguistique, Université de Genève. Consultado en http://latlcui.unige.ch/phonetique/easyalign/Tutorial_EasyAlign.pdf

Abre en Praat los documentos Ahumada_lectura.wav (que contiene la señal sonora) y Ahumada_lectura.txt (que contiene la transcripción ortográfica de la señal, necesaria para el funcionamiento de EasyAlign).

El fichero .wav se abre desde el menú Open, con la opción Read from file...

El fichero .txt se abre desde el menú Open, con la opción Read Strings from raw text file...

En el submenú EasyAlign que aparece en el menú Praat, selecciona Macro-segmentation....

Se creará un TextGrid llamado ortho, que se abrirá en Praat junto con la señal sonora. Revisa las marcas de frontera (Boundary) y comprueba que estén correctamente alineadas la transcripción ortográfica y la señal. Si es necesario, puedes ajustar las marcas de frontera.

En el submenú EasyAlign que aparece en el menú Praat, selecciona Phonetization... y elige spa como lengua en la que se trabaja.

Se creará un TextGrid llamado phono, que se abrirá en Praat junto con la señal sonora. Revisa la transcripción fonética en SAMPA creada automáticamente por EasyAlign a partir de la transcripción ortográfica. Si es necesario, puedes cambiar los símbolos de transcripción.

En el submenú EasyAlign que aparece en el menú Praat, selecciona Phone segmentation... y elige sp como lengua en la que se trabaja.

Se abrirá una ventana con marcas de frontera (Boundary) entre cada segmento correspondiente a un símbolo de transcripción. Comprueba que la segmentación sea correcta, de modo que los símbolos de transcripción y las fronteras estén correctamente alineadas con la señal. Si es necesario, puedes ajustar las marcas de frontera.

Al acabar todo el proceso, deben guardarse los TextGrid mediante la opción Save as text file... en el menú Save de Praat.

Una vez hayas comprobado el funcionamiento de EasyAlign con los documentos correspondientes a la lectura de un texto, observa el comportamiento del etiquetador con un fragmento de habla espontánea, extraído también del corpus Ahumada:

Realiza las mismas operaciones que has llevado a cabo para el corpus leído y valora el comportamiento de EasyAlign con el corpus de habla espontánea en lo que se refiere a la alineación entre la transcripción ortográfica y la señal, la transcripción fonética y la segmentación.

up arrow
Etiquetado de corpus orales
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Last updated: