Spoken Language Resources


Research interests

Development of spoken language resources for Spanish

Development of spoken language resources for Catalan

Transcription and coding of spoken corpora

Prosodic annotation of spoken corpora

Research projects

IST-2000-26095 NITE, Natural Interactivity Tools Engineering (2001-2003). Human Language Technologies, Information Society Programme, European Commission (Partner).

IST-1999-10647 ISLE, International Standards for Language Engineering (2000-2002). Human Language Technologies, Information Society Programme, European Commission (Associated partner).

RILE, Servidor de Recursos para el Desarrollo de la Ingeniería Lingüística en España (1999). Atyca (Iniciativa de Apoyo a la Tecnología, la Seguridad y la Calidad Industrial), Ministerio de Industria y Energía (Partner).

LE4-8370 MATE, Multilevel Annotation, Tools Engineering (1998-2000). Language Engineering, Telematics Applications Programme, European Commission (Partner).

CREL, Centre de Referència en Enginyeria Lingüística (1996-2000). Comissionat per a Universitats i Recerca, Generalitat de Catalunya (Partner).

PB94-0688-C04-01 Elaboración de un corpus de estilos de habla en español con aplicación a sistemas de texto-habla (1995-1998). Dirección General de Investigación Científica y Técnica, Ministerio de Educación y Ciencia (Partner).

LRE-63314 SpeechDat, Infrastructure for Spoken Language Research (1994-1995). Linguistic Research Engineering, Telematics Applications Programme, European Commission (Partner).

LRE-62050 MULTEXT Multilingual Text Tools and Corpora (1994-1996). Linguistic Research Engineering, Telematics Applications Programme, European Commission (Associated partner).

LRE-61100 EAGLES, Expert Advisory Group on Language Engineering Standards (1993-1995). Linguistic Research Engineering, Telematics Applications Programme, European Commission (Text Corpus Working Group Host and Editor; responsible for the Spoken Corpora Subgroup; member of the Management Board).

ESPRIT-6819 SAM-A, Speech Technology Assessment in Multilingual Applications (1991-1993). European Strategic Program on Research in Information Technology, European Commission (Subcontracted).

TIC91-1488-C06-02 Albayzín, Base de datos para el reconocimiento de habla en español (1991-1993). Programa Nacional de Tecnologías de la Información y Telecomunicaciones, Comisión Interministerial de Ciencia y Tecnología, Ministerio de Educación y Ciencia (Partner).

R&D contracts

Transcripción ortográfica, codificación y anotación de un millón de palabras para el subcorpus oral del CREA (Corpus de Referencia del Español Actual) (1997). Real Academia Española, Madrid.

Publications

Rello, L., Baeza-Yates, R., & Llisterri, J. (2017). A resource of errors written in Spanish by people with dyslexia and its linguistic, phonetic and visual analysis. Language Resources and Evaluation, 51(2), 379-408. https://doi.org/10.1007/s10579-015-9329-0

Carranza, M., Cucchiarini, C., Llisterri, J., Machuca, M. J., & Ríos, A. (2014). A corpus-based study of Spanish L2 mispronunciations by Japanese speakers. In Edulearn14 Proceedings. 6th International Conference on Education and New Learning Technologies. July 7th-9th, 2014 - Barcelona, Spain (pp. 3696-3705). IATED Academy. Retrieved from http://liceu.uab.cat/~joaquim/publicacions/Carranza_et_al_14_Corpus_Spanish_L2.pdf

Rello, L., Baeza-Yates, R., & Llisterri, J. (2014). DysList: An annotated resource of dyslexic errors. In LREC 2014. Proceedings of the Ninth International Conference on Language Resources and Evaluation (pp. 1289-1296). Reykjavik, Iceland. 26-31 May, 2014. Retrieved from http://liceu.uab.cat/~joaquim/publicacions/Rello_Baeza_Llisterri_DysList_14.pdf

Vila, M., González, S., Martí, M. A., Llisterri, J., & Machuca, M. J. (2010). ClInt: A bilingual spanish-catalan spoken corpus of clinical interviews. Procesamiento del Lenguaje Natural, 45, 105-111. Retrieved from http://liceu.uab.cat/~joaquim/publicacions/Vila_Gonzalez_Marti_Llisterri_Machuca_10_ClInt_Spoken_Corpus.pdf

Pineda, L. A., Castellanos, H., Cuétara, J., Galescu, L., Juárez, J., Llisterri, J., . . . Villaseñor, L. (2009). The corpus DIMEx100: Transcription and evaluation. Language Resources and Evaluation, 44(4), 347-370. doi:10.1007/s10579-009-9109-9. Retrieved from http://liceu.uab.cat/~joaquim/publicacions/Pineda_et_al_09_DIMEx100.pdf

Llisterri, J., Machuca, M. J., Mota, C., Riera, M., & Ríos, A. (2005). Corpus orales para el desarrollo de las tecnologías del habla en español. Oralia. Análisis del Discurso Oral, 8, 289-325. Retrieved from http://liceu.uab.cat/~joaquim/publicacions/Llisterri_Machuca_Mota_Riera_Rios_05_Corpus_Orales_Tecnologias_Habla_Espanol.pdf

Llisterri, J. (1999). Corpus orals per a la fonètica i les tecnologies de la parla. In Actes del I congrés de fonètica experimental. (pp. 27-38). Universitat Rovira i Virgili - Universitat de Barcelona. Tarragona, 22, 23 i 24 de febrer de 1999. Retrieved from http://liceu.uab.cat/~joaquim/publicacions/Resum_tarragona_99.html

Llisterri, J. (1999). Transcripción, etiquetado y codificación de corpus orales. Revista Española de Lingüística Aplicada. Volumen Monográfico "Panorama de la Investigación en Lingüística Informática", 53-82. Retrieved from http://liceu.uab.cat/~joaquim/publicacions/RESLA_99.pdf

Torruella, J., & Llisterri, J. (1999). Diseño de corpus textuales y orales. In J. M. Blecua, G. Clavería, C. Sánchez, & J. Torruella (Eds.), Filología e informática. Nuevas tecnologías en los estudios lingüísticos (pp. 45-77). Barcelona: Seminari de Filologia i Informàtica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona - Editorial Milenio. Retrieved from http://liceu.uab.cat/~joaquim/publicacions/Torruella_Llisterri_99.pdf

Fernández, A., & Llisterri, J. (1996). Informe sobre recursos lingüísticos para el español (II): Corpus escritos y orales disponibles y en desarrollo en España. Alcalá de Henares: Observatorio Español de Industrias de la Lengua, Instituto Cervantes.

Llisterri, J. (1996). Els corpus lingüístics orals. In L. Payrató, E. Boix, M.-R. Lloret, & M. Lorente (Eds.), Corpus, corpora. Actes del 1er i 2on col·loquis lingüístics de la Universitat de Barcelona (CLUB-1, CLUB-2) (pp. 27-70). Barcelona: Promociones y Publicaciones Universitarias. Retrieved from http://liceu.uab.cat/~joaquim/publicacions/UB_Corpus_93.pdf

Llisterri, J. (1996). Survey of Spanish resources. The ELRA Newsletter, 1(1), 7-8.

Llisterri, J., & Poch, D. (1994). Proyecto de una base de datos acústicos de la lengua española. In Actas del congreso de la lengua española. Sevilla, del 7 al 10 de octubre de 1992. (pp. 278-92). Madrid: Instituto Cervantes. Retrieved from http://cvc.cervantes.es/obref/congresos/sevilla/tecnologias/ponenc_llisterripoch.htm

Arrarte, G., & Llisterri, J. (1994). Informe sobre recursos lingüísticos para el español (I): Corpus escritos y orales disponibles y en desarrollo en España. Alcalá de Henares: Instituto Cervantes.

Llisterri, J. (1993). EAGLES working groups report: Text corpora. Elsnews.The Newsletter of the European Network in Language and Speech, 2(2), 4-5.

Moreno, A., Poch, D., Bonafonte, A., Lleida, E., Llisterri, J., Mariño, J. B., & Nadeu, C. (1993). ALBAYZÍN speech database: Design of the phonetic corpus. In Eurospeech 1993. Proceedings of the 3rd European conference on speech communication and technology. Vol 1. (pp. 175-8). Berlin, Germany. 21- 23 September, 1993. Retrieved from http://liceu.uab.cat/~joaquim/publicacions/Moreno_et_al_93_Albayzin_Phonetic_Corpus.pdf

Casacuberta, F., García, R., Llisterri, J., Nadeu, C., Pardo, J. M., & Rubio, A. (1992). Desarrollo de corpus para la investigación en tecnologías del habla (Albayzín). Procesamiento del Lenguaje Natural, 12, 35-42. Retrieved from http://liceu.uab.cat/~joaquim/publicacions/Casacuberta_et_al_92_Corpus_Albayzin.pdf

Llisterri, J., & Poch, D. (1991). Phonetic criteria for the development of a speech database in Spanish (the Albayzín project). In G. Castagneri (Ed.), Proceedings of the workshop on international cooperation and standardization of speech databases and speech I /O assessment methods. Chiavari, Italy. September 26-28, 1991. Retrieved from http://liceu.uab.cat/~joaquim/publicacions/Llisterri_Poch_91_Albayzin.pdf

Casacuberta, F., García, R., Llisterri, J., Nadeu, C., Pardo, J. M., & Rubio, A. (1991). Development of Spanish corpora for speech research (Albayzín). In G. Castagneri (Ed.), Proceedings of the workshop on international cooperation and standardization of speech databases and speech I /O assessment methods. Chiavari, Italy. September 26-28, 1991. Retrieved from http://liceu.uab.cat/~joaquim/publicacions/Casacuberta_et_al_91.pdf

Project reports

Dybkjaer, L., Bernsen, N. O., Wegener Knudsen, M., Llisterri, J., Machuca, M. J., Martin, J.-C., . . . Wittenburg, P. (2003). Guidelines for the creation of NIMM annotation schemes. Deliverable D9.2 Final Report. ISLE Natural Interactivity and Multimodality Working Group. Retrieved from http://liceu.uab.cat/~joaquim/publicacions/Dybkjaer_et_al_03_Guidelines_NIMM_annotation_schemes.pdf

Wegener Knudsen, M., Martin, J.-C., Dybkjaer, L., Machuca, M. J., Bernsen, N. O., Carletta, J., . . . Wittenburg, P. (2002). Survey of multimodal annotation schemes and best practice. D9.1 Final Report. ISLE Natural Interactivity and Multimodality Working Group. Retrieved from http://liceu.uab.cat/~joaquim/publicacions/Wegener_Knudsen_et_al_02_Survey_multimodal_annotation_schemes.pdf

Dybkjaer, L., Berman, S., Bernsen, N. O., Carletta, J., Heid, U., & Llisterri, J. (2001). Requirements specification for a tool in support of annotation of natural interaction and multimodal data. D11.2 Final Report. ISLE Natural Interactivity and Multimodality Working Group. Retrieved from http://liceu.uab.cat/~joaquim/publicacions/Dybkjaer_et_al_01_annotation_multimodality.pdf

Llisterri, J. (Ed.). (1996). Prosody tools efficiency and failures. WP 4 Corpus. T4.6 Speech markup and validation. Deliverable 4.5.2. Final Report. LRE Project 62-050 MULTEXT. Retrieved from http://liceu.uab.cat/~joaquim/publicacions/Prosody_tools_96.pdf

Llisterri, J. (Ed.). (1996). Preliminary recommendations on spoken texts. EAGLES Document EAG-TCWG-CTYP/P. May, 1996. EAGLES, Expert Advisory Group on Language Engineering Standards. Retrieved from http://liceu.uab.cat/~joaquim/publicacions/EAGLES_86_Preliminary_recommendations_spoken_texts.pdf

Llisterri, J. (1995). A proposal for Catalan SAMPA. Bellaterra: Departament de Filologia Espanyola, Universitat Autònoma de Barcelona. Retrieved from http://liceu.uab.cat/~joaquim/language_resources/SAMPA_Catalan.html

Badia, T., Cabré, M. T., Llisterri, J., & de Yzaguirre, L. (1994). Recursos lingüístics en llengua catalana: estat de la qüestió. In Jornada de Compatibilitat i accessibilitat dels corpus de dades en llengua catalana. Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra, Barcelona. 6 de maig de 1994.

Llisterri, J. (1994). Prosody encoding survey. WP 1 Specifications and Standards. T1.5. Markup Specifications. Deliverable 1.5.3. Final version, 15 September 1994. LRE Project 62-050 MULTEXT. Retrieved from http://liceu.uab.cat/~joaquim/publicacions/Prosody_encoding_94.pdf

Llisterri, J., Aguilar, L., Blecua, B., Machuca, M. J., Mota, C. de la, Ríos, A., . . . Salavedra, J. (1993). Spanish EUROM.1: Phonetic contents. Report D 6. SAM-A/UPC/002. ESPRIT Project 6819 SAM-A, Speech Technology Assessment in Multilingual Applications. Retrieved from http://liceu.uab.cat/~joaquim/publicacions/Llisterri_et_al_1993_Spanish_EUROM1_Phonetic_contents.pdf

Llisterri, J., & Mariño, J. B. (1993). Spanish adaptation of SAMPA and automatic phonetic transcription. SAM-A/UPC/001/V1. ESPRIT Project 6819 SAM-A, Speech Technology Assessment in Multilingual Applications. Retrieved from http://liceu.uab.cat/~joaquim/publicacions/SAMPA_Spanish_93.pdf

Invited courses, workshops, seminars and lectures

Diseño de corpus orales para la investigación lingüística. Instituto Caro y Cuervo, Bogotá, Colombia. 13 August 2013.

Herramientas de análisis y sistemas de etiquetado de corpus en el nivel fonético segmental y suprasegmental, Máster en Estudios Hispánicos: Aplicaciones e Investigación, Departament de Filologia Espanyola, Universitat de València, 29 February 2008.

Els corpus orals, Lingüística de corpus, Programa de doctorat en Ciència Cognitiva i Llenguatge, CLiC, Centre de Llenguatge i Computació, Departament de Lingüística General, Universitat de Barcelona, 23 and 30 January 2008.

Problems in the annotation of spoken language corpora, Sonderforschungsbereich SFB 538 "Mehrsprachigkeit", Universität Hamburg, 25 July 2007.

Herramientas de análisis y sistemas de etiquetado de corpus orales en el nivel fonético segmental y suprasegmental, Máster de estudios hispánicos: aplicaciones e investigación, Departament de Filologia Espanyola, Universitat de València, València, 26-30 March 2007.

Los corpus como recurso compartido para la investigación lingüística, Parlaritaliano.it, Dipartimento di Studi Linguistici e Letterari, Università degli Studi di Salerno, Salerno, 26 February 2007.

Los corpus orales, Escuela Nacional de Antropología e Historia, México D.F., 20 January 2005.

Los textos orales: constitución, transcripción y herramientas para su análisis, XXV Curso de Lingüística Textual: Tipos de textos, Departamento de Lengua Española y Lingüística General, Universidad de Murcia, 4 March 2002.

Corpus orales para la fonética y las tecnologías del habla, Xornadas sobre Lingüística de Corpus, Área de Linguística Geral, Departamento de Filologias Francesa e Galego-Portuguesa, Universidade de Coruña, 18 November 1999.

Corpus orales para la fonética y las tecnologías del habla, Curso de Industrias de la Lengua “Proyectos actuales en procesamiento de lenguaje natural”, Fundación Duques de Soria, Soria, 16 July 1998.

Etiquetado, transcripción y codificación de corpus orales, Seminario de Industrias de la Lengua, Curso “Etiquetación y extracción de información de grandes corpus textuales”, Fundación Duques de Soria, Soria, 15 de julio de 1997.

Corpus orales, Escuela Interlatina de Altos Estudios de Lingüística Aplicada, Lexicografía y tecnologías de la lengua: situación y perspectiva de las lenguas románicas,San Millán de la Cogolla, La Rioja, 3-9 September 1995.

Regular teaching

Corpus orales para las tecnologías del habla

(2015-2016) (2012-2013)

8 hours course taught at the Máster en Fonética y Fonología - Doctorado en Estudios Fónicos, Laboratorio de Fonética, Instituto de Lengua, Literatura y Antropología, Centro de Ciencias Humanas y Sociales, Consejo Superior de Investigaciones Científicas, Madrid.

Creación de corpus orales: diseño, recogida de datos y anotación

(2015)

Course (9 hours) taught at the Instituto de Investigaciones Lingüísticas and the Programa de Posgrado en Lingüística, Universidad de Costa Rica. San José, Costa Rica, 11-13 August 2015.

Recursos lingüístics

(2013-214) (2012-2013) (2011-2012) (2010-2011) (2009-2010)

Lectures given within the module “Fonaments del tractament de la informació i comunicació multilingüe)” offered as part of the MA programmes Màster oficial el Tractament de la Informació i la Comunicació Multilingüe (TICOM) - International Masters in Natural Language Processing and Human Language Technology (NLP & HLT) organized by the Departament de Filologia Francesa i Romànica at the Universitat Autònoma de Barcelona.

Los corpus orales

(2007-2008)

“Los corpus orales” is a course within the module “Aplicación de las tecnologías de la información y de la comunicación (TIC) a la Lengua Española” taught as part of the MA programme Máster oficial en Lengua Española y Literatura Hispánica organized by the Departament de Filologia Espanyola at the Universitat Autònoma de Barcelona.

Creación y tratamiento de corpus orales para el estudio del habla

(2007)

Course (16h) taught during 16º InPLA, Intercâmbio de Pesquisas em Lingüística Aplicada. Programa de Estudos Pós-Graduados em Lingüística Aplicada e Estudos da Linguagem, Pontifícia Universidade Católica de São Paulo. São Paulo, 2-5 May 2007.

Diseño, constitución y tratamiento de corpus orales y escritos en lengua española

(2005-06)

“Diseño, constitución y tratamiento de corpus orales y escritos en lengua española” is a module within the postgraduate course “Temas, métodos y problemas de la investigación en lengua española” taught during the academic year 2005-2006 as part of the PhD programme Filologia Espanyola - Llengua Espanyola organized by the Departament de Filologia Espanyola at the Universitat Autònoma de Barcelona.

Los corpus orales

(2005)

Two weeks course (40 hours) taught at the Colegio de Letras Hispánicas, Facultad de Filosofía y Letras, Universidad Nacional Autónoma de México. Mexico City, 10-21 January, 2005.

Introducció als corpus lingüístics

(1998-99)

“Introducció als corpus lingüístics” is a postgraduate course taught during the academic year 1998-99 as part of the PhD programme Filologia Espanyola - Llengua Espanyola organized by the Departament de Filologia Espanyola at the Universitat Autònoma de Barcelona.

Introducción a los corpus orales y escritos

(1997-98) (1996-97)

“Introducción a los corpus orales y escritos” is a postgraduate course taught in collaboration with Dr. Joan Torruella as part of the PhD programme Lingüística: Tractament informàtic del llenguatge organized by the Departament de Filologia Espanyola at the Universitat Autònoma de Barcelona.

Metodologia de recollida de corpus orals

(1993-94)

“Metodologia de recollida de corpus orals” is a postgraduate course taught during the academic year 1993-93 as part of the PhD programme Tractament Informàtic del llenguatge organized by the Departament de Filologia Espanyola at the Universitat Autònoma de Barcelona.

Committees

Scientific Committee. In LREC 2016. 10th International Conference on Language Resources and Evaluation. Portoro┼ż, Solvenia. 23.28 May, 2016. ELRA, European Language Resources Association.

Scientific Committee. In LREC 2014. 9th International Conference on Language Resources and Evaluation. Reykjavik, Iceland. 26-31 May, 2014. ELRA, European Language Resources Association.


Spoken language resources
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Last updated: