Tecnologies de la parla (2005-2006)

Joaquim Llisterri

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

3 crèdits, 2on semestre


exclamation point

Aquí es publica informació de darrera hora sobre el desenvolupament de l’assignatura

line_red

Objectius

L’assignatura té com a objectiu presentar, des d’una perspectiva eminentment lingüística, les principals àrees de treball que constitueixen les tecnologies de la parla - síntesi, reconeixement i diàleg -, emmarcant-les en el context de la interacció persona - màquina.

El curs s’iniciarà amb una reflexió general sobre la comunicació oral entre persones i sistemes informàtics, per passar a continuació a una exposició dels principis bàsics, les tècniques, els sistemes i les aplicacions en els camps de la síntesi de la parla, el reconeixement de la parla i dels sistemes de diàleg persona - màquina. L'èmfasi del curs es posarà en els components i coneixements lingüístics implicats en el disseny, desenvolupament i avaluació de sistemes, més que no pas en les tecnologies més pròpies del processament de senyals o de la informàtica.


Programa

La comunicació oral persona - màquina

La interacció oral amb els ordinadors. Avantatges i limitacions de la comunicació oral persona - màquina. La multimodalitat en la interacció amb sistemes informàtics.

Les tecnologies de la parla

Desenvolupament històric i situació actual. Àmbits de treball de les tecnologies de la parla. Relacions amb altres disciplines.

La síntesi de la parla

Tècniques de síntesi de la parla: codificació del senyal sonor, concatenació d’unitats emmagatzemades, síntesi paramètrica síntesi per regles i síntesi articulatòria. La conversió de text a parla: etapes en la conversió de text a parla i sistemes actuals. Aplicacions de la síntesi de la parla.

El reconeixement de la parla

Característiques dels sistemes de reconeixement. Àmbits relacionats amb el reconeixement de la parla: identificació i verificació del locutor i identificació automàtica de la llengua. Tècniques per al reconeixement de la parla. Sistemes actuals. Aplicacions del reconeixement.

Els sistemes de diàleg

Característiques dels sistemes de diàleg. El disseny dels sistemes de diàleg. Aplicacions: sistemes d’informació, sistemes de transaccions i traducció de la llengua oral.

red Bibliografia bàsica

En començar cada tema es donarà un guió desenvolupant els continguts i una bibliografia específica. Com a obres bàsiques per al curs es proposen les de la llista que es presenta a continuació.

AINSWORTH, W.A. (1997) "Some Approaches to Automatic Speech Recognition", in HARDCASTLE, W.J. - LAVER, J. (Eds.) The Handbook of Phonetic Sciences. Oxford: Blackwell Publishers (Blackwell Handbooks in Linguistics, 5). pp. 721-743.

BERNSTEIN, J.- FRANCO, H. (1996) "Speech recognition by computer", in LASS, N.J (Ed.) Principles of Experimental Phonetics. St Louis: Mosby. pp. 408-434.

CARLSON, R.- GRANSTRÖM, B. (1997) "Speech Synthesis", in HARDCASTLE, W.J. - LAVER, J. (Eds.) The Handbook of Phonetic Sciences. Oxford: Blackwell Publishers (Blackwell Handbooks in Linguistics, 5). pp. 768-788.

COHEN, P. R. - OVIATT, S. L. (1995) "The role of voice input for human-machine communication", in Proceedings of the National Academy of Sciences 92, 22: 9921-9927.
http://www.cse.ogi.edu/CHCC/Publications/role_voice_input_human_machine_communicationb_cohen_95.pdf

COLE, R. (Ed.) (1997) "Spoken Output Technologies", in COLE, R.A.- MARIANI, J.- USZKOREIT, H.- ZAENEN, A.- ZUE, V. (Eds.) Survey of the State of the Art in Human Language Technology. Cambridge: Cambridge University Press.
http://cslu.cse.ogi.edu/HLTsurvey/ch5node2.html#Chapter5

COLE, R.- ZUE, V. (Eds.) (1997) "Spoken Language Input", in COLE, R.A.- MARIANI, J.- USZKOREIT, H.- ZAENEN, A.- ZUE, V. (Eds.) Survey of the State of the Art in Human Language Technology. Cambridge: Cambridge University Press. pp. 1-70.
http://cslu.cse.ogi.edu/HLTsurvey/ch1node2.html#Chapter1

CHOLLET, G. (1994) "Automatic Speech and Speaker Recognition: Overview, Current Issues and Perspectives", in KELLER, E. (Ed.) Fundamentals of Speech Synthesis and Speech Recognition. Basic Concepts, State of the Art and Future Challenges. Chichester: John Wiley & Sons. pp. 129-148.

DUTOIT, T. (1997) An Introduction to Text-to-Speech Synthesis. Dordrecht: Kluwer Academic Publishers (Text, Speech and Language Technology, 3).

GIACHIN, E. (1997) "Spoken Language Dialogue", in COLE, R.A.- MARIANI, J.- USZKOREIT, H.- ZAENEN, A.- ZUE, V. (Eds.) Survey of the State of the Art in Human Language Technology. Cambridge: Cambridge University Press. pp. 241-244.
http://cslu.cse.ogi.edu/HLTsurvey/ch6node6.html

HOLMES, J.N..- HOLMES, W. (2001) Speech Synthesis and Recognition. London: Taylor & Francis, 2nd edition.

KURZWEIL, R. (1998) "When Will HAL Understand What We Are Saying? Computer Speech Recognition and Understanding", in STORK, D.G. (Ed.) Hal's Legacy: 2001's Computer as Dream and Reality. Cambridge, Mass.: The MIT Press.
http://mitpress.mit.edu/e-books/Hal/chap7/seven1.html

LLISTERRI, J. (2001) "Les tecnologies de la parla", in MARTÍ, M.A. (Coord.) Les tecnologies del llenguatge. Barcelona: Edicions de la Universitat Oberta de Catalunya (Manuals, 53). pp. 239-272; trad. cast.: "Las tecnologías del habla", in MARTÍ, M.A. (Coord.) Tecnologías del lenguaje. Barcelona: Editorial UOC (Manuales, Humanidades), 2003. pp. 249-281.

LLISTERRI, J.- AGUILAR, L.- GARRIDO, J.M.- MACHUCA, M.J.- MARÍN, R.- DE LA MOTA, C.- RÍOS, A. (1999) "Fonética y tecnologías del habla", in BLECUA, J.M.- CLAVERÍA, G.- SÁNCHEZ, C.- TORRUELLA, J. (Eds.) Filología e informática. Nuevas tecnologías en los estudios filológicos. Barcelona: Seminario de Filología e Informática, Departamento de Filología Española, Universidad Autónoma de Barcelona - Editorial Milenio. pp. 449-479.
http://liceu.uab.cat/~joaquim/publicacions/Fonetica_TecnolHabla.pdf

LLISTERRI, J.- CARBÓ, C.- MACHUCA, M. J.- de la MOTA, C.- RIERA, M.- RÍOS, A. (2003) "El papel de la lingüística en el desarrollo de las tecnologías del habla", in CASAS GÓMEZ, M. (Dir.) - VARO VARO, C. (Ed.) VII Jornadas de Lingüística. Cádiz: Servicio de Publicaciones de la Universidad de Cádiz. pp. 137-191.
http://liceu.uab.cat/~joaquim/publicacions/Llisterri_Carbo_Machuca_Mota_Riera_Rios_03_Linguistica_Tecnologias_Habla.pdf

MARIANI, J. (Ed.) (1997) "Multimodality", in COLE, R.A.- MARIANI, J.- USZKOREIT, H.- ZAENEN, A.- ZUE, V. (Eds.) Survey of the State of the Art in Human Language Technology. Cambridge: Cambridge University Press. pp. 329-370.
http://cslu.cse.ogi.edu/HLTsurvey/ch9node2.html#Chapter9

MÉLONI, H. (Coord.) (1996) Fondements et Perspectives en Traitement Automatique de la Parole. Paris: Éditions AUPELF-UREF (Collection Universités Francophones).
http://www.bibliotheque.refer.org/html/parole/somm.htm

OLIVE, J.P. (1997) "The Talking Computer" Text to Speech Synthesis", in STORK, D.G. (Ed.) Hal's Legacy: 2001's Computer as Dream and Reality. Cambridge, Mass.: The MIT Press.
http://mitpress.mit.edu/e-books/Hal/chap6/six1.html

TAPIAS, D. (2002) "Interfaces de voz con lenguaje natural", in MARTÍ, M.A.- LLISTERRI, J. (Eds.) Tratamiento del lenguaje natural. Tecnología de la lengua oral y escrita. Barcelona: Edicions Universitat de Barcelona - Fundación Duques de Soria (Biblioteca de la Universitat de Barcelona, Manuales, 53). pp. 189-207.

WAIBEL, A. (1997) "Multilingual Speech Processing", in COLE, R.A.- MARIANI, J.- USZKOREIT, H.- ZAENEN, A.- ZUE, V. (Eds.) Survey of the State of the Art in Human Language Technology. Cambridge: Cambridge University Press.pp. 306-313.
http://cslu.cse.ogi.edu/HLTsurvey/ch8node8.html#SECTION86

WAIBEL, A. (2001) "Los sistemas integrales completos del habla, del lenguaje y la interfaz humana", Quark. Ciencia, Medicina, Comunicación y Cultura 21: 95-102.
http://www.prbb.org/quark/21/021095.htm

ZUE, V. (1999) "Talking with your computer", Scientific American, August 1999. pp. 40-41.
http://www.sciam.com/article.cfm?articleID=0009D2B7-F2E6-1C72-9B81809EC588EF21&catID=2

Es por trobar una bibliografia més detallada a:
http://liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/speech_tech_general/refs_gen_tecnol_parla.html


Avaluació

Els estudiants podran optar per una de les dues modalitats d’avaluació següents:
(1) Un treball escrit que representi una aportació crítica sobre el paper del coneixement lingüístic en les tecnologies de la parla.

(2) Un treball experimental sobre algun aspecte relacionat amb la incorporació de coneixement lingüístic a sistemes de tecnologies de la parla.

En ambdós casos, el tema del treball es determinarà conjuntament amb el professor de l’assignatura.


Requisits previs

Per cursar aquesta assignatura no cal tenir coneixements previs sobre el camp de les tecnologies de la parla ni tampoc coneixements en l'àmbit tecnològic. Cal, però, tenir coneixements de fonètica equivalents als propis d’una assignatura de segon cicle com ara Fonètica o Fonética del español, especialment pel que fa a la descripció fonètica del castellà o el català, la fonètica acústica i el mètode experimental en fonètica.

Els estudiants que necessitin una introducció als conceptes bàsics de fonètica acústica o de fonètica experimental poden consultar la bibliografia recomanada a:

http://liceu.uab.cat/~joaquim/phonetics/fon_anal_acus/Bib_anal_acus.html
http://liceu.uab.cat/~joaquim/phonetics/fon_met_exper/Bib_met_exp.html


Joaquim Llisterri
Departament de Filologia Espanyola

Horari de classes: dilluns de 18:00 a 19:30 h, del 22 de frebrer al 29 de maig de 2006, a l’aula 202

Horari d’atenció als estudiants:
Dimarts i dijous de 15:30 a 16:30h i de 18 a 19h, despatx B11/222, Facultat de Filosofia i Lletres
Divendres de 10:30 a 12:30h, despatx K2004, Facultat de Traducció i Interpretació
i a hores prèviament concertades.

Telèfon: 93.581.16.87 (Facultat de Filosofia i Lletres), 93.581.33.85 (Facultat de Traducció) i 93.581.19.12 (Laboratori de Fonètica)

Correu electrònic: Joaquim.Llisterri@uab.esTecnologies de la parla (2005-2006)
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
http://liceu.uab.cat/~joaquim/speech_technology/Tecnol_parla_2005/Tecn_Parl_2005_prog.html
Last updated: 28/8/14 22:09