Corpus orales para la fonética y las tecnologías del habla en español

Esta página no se actualiza con regularidad



Albayzín, Base de datos para el reconocimiento del habla en español

Grup de Processament de la Veu, Departament de Teoria del Senyal i Comunicacions, Escola Tècnica Superior d'Enginyers de Telecomunicació, Universitat Politènica de Catalunya.

Departamento de Señales, Sistemas y Radiocomunicaciones, Escuela Técnica Superior de Ingenieros de Telecomunicación, Universidad Politécnica de Madrid.

GPySC, Grupo de Investigación en Procesamiento de Señales y Comunicaciones, Departamento de Electrónica y Tecnología de Computadores, Facultad de Ciencias, Universidad de Granada.

Grup de Fonètica, Departament de Filologia Espanyola, Facultat de Filosofia i Lletres, Universitat Autònoma de Barcelona.

GTH, Grupo de Tecnología del Habla, Departamento de Ingeniería Electrónica, Escuela Técnica Superior de Ingenieros de Telecomunicación, Universidad Politécnica de Madrid.

RFIA, Grupo de Reconocimiento de Formas y Tecnologías del Lenguaje Humano, Departamento de Sistemas Informáticos y Computación - Instituto Tecnológico de Informática, Universidad Politécnica de Valencia.

Objetivos del corpus

Desarrollo de las tecnologías del habla en español.

Entrenamiento y evaluación de sistemas de procesado y de reconocimiento automático de habla.

Comparación de resultados de diversos sistemas de reconocimiento automático de habla empleados con un mismo corpus.

Desarrollo de sistemas de comprensión de habla en el contexto de sistemas de diálogo.

Obtención de información acústica para la conversión de texto en habla.

Desarrollo de estudios fonéticos:

Características del corpus

Corpus fonético

Diseñado para recoger un amplio margen de variabilidad fonética en las realizaciones alofónicas.

Subcorpus de aprendizaje

200 enunciados fonéticamente equilibrados con restricciones adicionales.

Contextos fonéticos relevantes:

Posición en la sílaba.

Acentuación.

Restricciones estadísticas:

Distribuidos en grupos fonéticamente equilibrados de 25 enunciados.

Subcorpus de prueba

Características:

Constitución y restricciones:

Determinación del inventario de elementos segmentales considerados

Estudio de la frecuencia de aparición en un corpus fonéticamentre transcrito de entrevistas semidirigidas con una muestra de más de 100.000 segmentos.

Eliminación de los segmentos con una frecuencia de aparición inferior al 0.1%.

Inventario final: 24 fonemas y 7 alófonos.

Llisterri, J., y Mariño, J. B. (1993). Spanish adaptation of SAMPA and automatic phonetic transcription. SAM-A/UPC/001/V1. ESPRIT Project 6819 SAM-A, Speech Technology Assessment in Multilingual Applications. Consultado en http://liceu.uab.cat/~joaquim/publicacions/SAMPA_Spanish_93.pdf

Aplicaciones del corpus fonético

Datos estadísticos sobre una muestra de referencia del español oral.

Corpus oral fonéticamente equilibrado y con restricciones que permite el estudio de la variabilidad.

Corpus para el entrenamiento y la evaluación de sistemas de reconocimiento automático de habla.

Corpus de aplicación

3900 frases correspondientes a una tarea de consulta a una base de datos.

Corpus de habla en condiciones adversas

Partes del corpus fonético y del corpus de aplicación grabadas con efecto Lombard.

Locutores

304 locutores.

Hablantes de la variedad central del castellano.

Sin rasgos específicos ni de una zona geográfica ni de un grupo social restringido.

Estándares utilizados

Estándares del proyecto ESPRIT 2589 SAM:

Segmentación manual de 1200 enunciados.

Distribución en CD-ROM.

Disponibilidad:

Base de datos oral del español Albayzín. Universitat Politècnica de València, Universidad Politécnica de Madrid, Universidad de Granada, Universitat Autònoma de Barcelona, Universitat Politècnica de Catalunya. 5 CD-ROM. 1999.

ELDA, Evaluations and Language resources Distribution Agency:
http://catalog.elra.info/product_info.php?products_id=746&osCsid=7a272af9a54b96add9f69ac305a7ed28
Miembros de ELRA: Investigadores 1000 Euros / Empresas 10000 Euros / Investigadores españoles 100 Euros
Investigadores 2000 Euros / Empresas 12000 Euros / Investigadores españoles 120 Euros

Referencias

arrow_up

EUROM

Grup de Processament de la Veu, Departament de Teoria del Senyal i Comunicacions, Escola Tècnica Superior d'Enginyers de Telecomunicació, Universitat Politènica de Catalunya.

Grup de Fonètica, Departament de Filologia Espanyola, Facultat de Filosofia i Lletres, Universitat Autònoma de Barcelona.

EUROM1 - Multilingual Speech Corpus

Corpus común para el desarrollo de las tecnologías del habla en Europa.

Uso de materiales comunes para la evaluación y entrenamiento de sistemas.

Desarrollo de materiales equivalentes en complejidad en los niveles segmental, léxico, oracional y textual.

Contenidos del corpus

Logatomas CV(C):

100 dígitos.

Logatomas en 5 frases marco diferentes.

40 párrafos de 5 frases cada uno.

50 frases para aumentar la cobertura fonética.

Locutores

60 locutores: 6 frases y dígitos.

10 locutores: 75 frases, 5 x 100 dígitos, logatomas CVC.

4 locutores: logatomas CVC aislados y en frase marco x 10 repeticiones.

Disponibilidad:

EUROM1 (The multilingual European speech database) (ELDA-S0014). Paris: ELDA, Evaluations and Language Resources Distribution Agency.
http://catalog.elra.info/product_info.php?products_id=528&osCsid=e682925cbc0378057a1cb911c485ad67

Referencias

arrow_up

SpeechDat

Grup de Processament de la Veu, Departament de Teoria del Senyal i Comunicacions, Escola Tècnica Superior d'Enginyers de Telecomunicació, Universitat Politènica de Catalunya.

Grup de Fonètica, Departament de Filologia Espanyola, Facultat de Filosofia i Lletres, Universitat Autònoma de Barcelona.

SPEECHDAT, Spoken Language Resources

SpeechDat

SpeechDat_logo.gif

Objetivos del proyecto

Definición de estándares para la creación de bases de datos orales para las tecnologías del habla.

Creación de una infraestructura para la producción y distribución de recursos lingüísticos.

Desarrollo de bases de datos en 7 lenguas.

Contenidos del corpus

Palabras relacionadas con la aplicación.

Números del 1 al 10.

Cadenas de números.

Fechas.

Expresiones relacionadas con la aplicación.

Dígitos aislados.

Letras.

Cantidades de dinero.

Números naturales.

Nombres de lugar.

Respuesta “sí” o “no”.

Frases fonéticamente ricas.

Horas.

Palabras complementarias.

Disponibilidad:

2 CD-ROM distribuidos por ELRA, European Language Resources Association:
Spanish SpeechDat(M) - DB1 y Spanish SpeechDat(M) - DB2
http://catalog.elra.info/product_info.php?products_id=721&osCsid=9289223575b55f27c187a5a97951476a
http://catalog.elra.info/product_info.php?products_id=722&osCsid=6b68023ac61990e6b690d6f0f41fa9c9

SPEECHDAT II, Speech Databases for the Creation of Voice Driven Teleservices

SpeechDat

SpeechDatII_logo.gif

Objetivos del proyecto

Creación de corpus orales para el desarrollo de teleservicios.

Servicios de información:

Servicios de transacciones:

Servicios telefónicos:

SpeechDat-Car, Speech Databases for Voice Driven Teleservices and Control in Automotive Environments

SpeechDat

SpeechDatCar_logo.gif

Objetivos del proyecto

Creación de bases de datos para el desarrollo de sistemas de ayuda a la conducción mediante el habla.

Características del corpus

Adquisición del corpus en entorno real.

300 hablantes y 9 lenguas.

The Sala Project - SpeechDat Across Latin America

Sala_logo.gif
Grup de Processament de la Veu, Departament de Teoria del Senyal i Comunicacions, Escola Tècnica Superior d'Enginyers de Telecomunicació, Universitat Politènica de Catalunya.

Creación de bases de datos para el entrenamiento de sistemas de reconocimiento de habla.

Aplicaciones telefónicas.

Estándares desarrollados en SpeechDat.

Argentina, Chile, Colombia, Cuba, Ecuador, México, Perú, Venezuela.

Referencias

arrow_up

ACCOR, Articulatory-Acoustic Correlations in Coarticulatory Processes - A Cross-Linguistic Investigation

RFIA, Grupo de Reconocimiento de Formas y Tecnologías del Lenguaje Humano, Departamento de Sistemas Informáticos y Computación, Facultad de Informática, Universidad Politécnica de Valencia.

Laboratori de Fonètica Institut d'Estudis Catalans.

ACCOR, Articulatory-Acoustic Correlations in Coarticulatory Processes - A Cross-Linguistic Investigation

Base de datos multicanal.

7 lenguas europeas.

Datos fisiológicos:

Datos aerodinámicos.

Marchal, A., Hardcastle, W. J., Hoole, P., Schmidbauer, O., Galiano, I., Engstrand, O., y Recasens, D. (1991). The design of a multichannel database. En ICPhS 1991. Actes du 12ème congrès international de sciences phonétiques. Vol 5. (pp. 422-5). Aix-en-Provence: Université de Provence, Service des Publications.

Marchal, A., y Hardcastle, W. J. (1993). ACCOR: Instrumentation and database for the cross-language study of coarticulation. Language and Speech, 36, 137-153.
arrow_up

MULTEXT, Multilingual Text Tools and Corpora

Grup de Fonètica, Departament de Filologia Espanyola, Facultat de Filosofia i Lletres, Universitat Autònoma de Barcelona.

MULTEXT, Multilingual Text Tools and Corpora

MULTEXT_logo.GIF

Etiquetado prosódico mediante el sistema INTSINT de los párrafos de EUROM_1.

MULTEXT.gif
Hirst, D., Ide, N., y Véronis, J. (1994). Coding fundamental frequency patterns for multi-lingual synthesis with INTSINT in the MULTEXT project. En SSW2-1994. Proceedings of the second ESCA/IEEE workshop on speech synthesis. (pp. 77-80). Mohonk Mountain House, New Paltz, NY, USA, September 12-15, 1994. Consultado en http://www.isca-speech.org/archive_open/ssw2/ssw2_077.html

Llisterri, J. (Ed.). (1996). Prosody tools efficiency and failures. (WP 4 Corpus. T4.6 Speech Markup and Validation. Deliverable 4.5.2. Final version. 15 October 1996. LRE Project 62-050 MULTEXT. Consultado en http://liceu.uab.cat/~joaquim/publicacions/Prosody_tools_96.pdf

Disponibilidad:

CD-ROM distribuido por ELRA, European Language Resources Association:
ELRA-S0060 MULTEXT Prosodic Database. http://catalog.elra.info/product_info.php?products_id=530
arrow_up

MATE, Multilevel Annotation, Tools Engineering

Grup de Fonètica, Departament de Filologia Espanyola, Facultat de Filosofia i Lletres, Universitat Autònoma de Barcelona.

Telefónica I+D, Madrid.

MATE, Multilevel Annotation, Tools Engineering

MATE_logo.jpg

Anotación prosódica de diálogos para el desarrollo de sistemas de comunicación persona - máquina.

arrow_up

Corpus orales para la fonética y las tecnologías del habla en español


Corpus orales para la fonética y las tecnologías del habla en español
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Last updated: Esta página no se actualiza con regularidad