Fonética y tecnologías del habla


Conocimiento fonético y tecnologías del habla


La relación entre la fonética y las tecnologías del habla

Las tecnologías del habla

Surgidas en un principio del ámbito de la ingeniería de telecomunicaciones.

Desarrolladas siguiendo la evolución de la informática.

Profesionales inicialmente implicados en las tecnologías del habla:

El desarrollo histórico de las tecnologías del habla

El papel del conocimiento fonético

“Can we leave it to the computer to learn about speech or shall we insist on developing our own insights in the many dimensions of the speech code?” (p. 17).

Fant, G. (1984).Phonetics and speech technology. En M. P. R. van den Broecke y A. Cohen (Eds.), Proceedings of the 10th International Congress of Phonetic Sciences. (pp. 13-24). Dordrecht: Foris. Consultado en http://www.speech.kth.se/prod/publications/files/qpsr/1983/1983_24_2-3_020-035.pdf
“Computing power can not substitute crucial knowledge” (p. 11).

Fant, G. (2004). Half a century in phonetics and speech research. En Speech acoustics and phonetics: Selected writings. (pp. 1-14). Dordrecht: Kluwer Academic Publishers. (Obra original publicada en 2000). Consultado en http://www.speech.kth.se/gunnarfant/halfcentury.pdf
Fant
Gunnar Fant (1919-2009)

En sus inicios, las tecnologías del habla pretendían incorporar conocimiento fonético.

El Pattern Playback de los laboratorios Haskins

La relación entre la fonética y las tecnologías del habla ha cambiado en las últimas décadas.

“in the last decades we have witnessed a decrease in the amount of phonetic knowldege used in ASR and TTS” (p. 168).

Strik, H. (2005). Is phonetic knowledge of any use for speech technology? En W. J. Barry y W. A. van Dommelen (Eds.), The integration of phonetic knowledge in speech technology. (pp. 167-80). Dordrecht: Springer. Consultado en http://hstrik.ruhosting.nl/wordpress/wp-content/uploads/2013/03/a115.pdf
“the linguistic approach soon lost terrain, in recognition applications at least, to (nonlinguistically oriented) engineers who were less concerned with formal linguistic insights, treating the signal as a pattern just like any other, and this with outstanding success” (p. 1).

Barry, W. J., van Dommelen, W. A. y Koreman, J. (2005). Phonetic knowledge in speech technology - and phonetic knowledge from speech technology? En W. J. Barry y W. A. van Dommelen (Eds.), The integration of phonetic knowledge in speech technology. (pp. 1-12). Dordrecht: Springer. Consultado en http://www.coli.uni-saarland.de/~koreman/Publications/2005/Eurospeech2001.pdf
“In particular the shift away from knowledge-based rules and vocal-tract processing challenges a previously accepted principle: that better speech technology will come from better speech science. Or that better voice output will come from a better understanding of how humans produce speech. It is not just that concatenative synthesis and statistical linguistic analysis are ways to cover up our lack of knowledge about how human speech is produced, but that current research into improving speech synthesis involves methods (like unit selection) that do not contribute to an understanding of human production at all. In our efforts to make the best sounding speech with these techniques we seem to have moved away from the scientific study of speech.”

Huckvale, M. (2002). Speech synthesis, speech simulation and speech science. En Interspeech 2002 - ICSLP. Proceedings of the 7th International Conference on Spoken Language Processing. (pp. 1261-4). Denver, Colorado, USA, September 16-20, 2002. Consultado en http://www.phon.ucl.ac.uk/home/mark/papers/icslp02synth.pdf
“In general, there are two approaches to solve problems of natural language processing. The knowledege based approach consists in incorporating information inside the system produced by human experts. On the other hand, the data-driven approach uses labelled corpora to induce automatically information in the form of rules, decision trees or statistical information, to mention some ways of representing the acquired knowledge. It requires less experience and human resources, and the results may be similar to the other approach, whith the advantage that it facilitates the migration between languages” (p. 17).

Agüero, P. D. y Bonafonte, A. (2003). Phrase break prediction: A comparative study. Procesamiento del Lenguaje Natural, 31, 107-114. Consultado en http://www.sepln.org/revistaSEPLN/revista/31/31-Pag107.pdf

La relación entre la fonética y las tecnologías del habla en España (1999-2005)

Congresos anuales de la Sociedad Española para el Procesamiento del Lenguaje Natural (2000 - 2005):

Taller sobre “Tecnologías del habla: pasado, presente y futuro. Particularización sobre tecnología del español” (sic) en el Congreso Anual de la Sociedad Española para el Procesamiento del Lenguaje Natural en 2003:

Congresos de Fonética Experimental (1999, 2001 y 2005):

14 autores de comunicaciones que, entre 1999 y 2005, han participado tanto en los congresos de la Sociedad Española para el Procesamiento del Lenguaje Natural como en los de Fonética Experimental.

10% de los investigadores que presentaron contribuciones a la Sociedad Española para el Procesamiento del Lenguaje Natural y 13% de los que lo hicieron a los congresos de Fonética Experimental.

El número de equipos presentes tanto en los Congresos de Fonética Experimental como en los de la Sociedad Española para el Procesamiento del Lenguaje Natural se reduce a 3.

División muy marcada entre la comunidad investigadora dedicada a la fonética y la comunidad centrada en las tecnologías del habla.

up arrow

La incorporación de conocimientos fonéticos a las tecnologías del habla

A pesar de la división entre comunidades y “culturas” existe un acuerdo sobre la necesidad de incorporar información fonética a las tecnologías del habla.

Barry, W. A. y van Dommelen, W. A. (Eds.) (2005). The integration of phonetic knowledge in speech technology. Dordrecht: Springer.

Se reconoce el papel del fonetista…

“Speech technology can proudly point to its apparent success with speech recognition and concatenative synthesis in defense of its machine-learning-centric approach…” (p. 111).

Greenberg, S. (2005). From here to utility - melding phonetic insight with speech technology. En W. J. Barry y W. A. van Dommelen (Eds.), The integration of phonetic knowledge in speech technology. (pp. 107-32). Dordrecht: Springer. Consultado en http://www.icsi.berkeley.edu/~steveng/PDF/Phonetic_Insight.pdf

… pero

“imperfect science is capable of providing an effective foundation for technology - as long as the demands of the market are not exceedingly stringent or profund” (p. 111).

Greenberg, S. (2005). From here to utility - melding phonetic insight with speech technology. En W. J. Barry, & W. A. van Dommelen (Eds.), The integration of phonetic knowledge in speech technology. (pp. 107-32). Dordrecht: Springer. Consultado en http://www.icsi.berkeley.edu/~steveng/PDF/Phonetic_Insight.pdf

NilEinne. (02/08/2006). Windows Vista speech recognition - the whole story [Archivo de video]. Consultado en https://www.youtube.com/watch?v=kX8oYoYy2Gc

Tareas propias de un especialista en fonética y en lingüística

Acero, A. (1995). The role of phoneticians in speech technology. En G. Bloothooft, V. Hazan, D. Huber y J. Llisterri (Eds.), European studies in phonetics and speech communication. (pp. 170-5). Utrecht: OTS Publications. Consultado en http://research.microsoft.com/pubs/77752/Acero-Phonetician.pdf

Conversión de texto en habla

Reglas para el procesamiento previo del texto que contemplen la expansión de los signos de puntuación sin valor lingüístico, las expresiones numéricas, las siglas y las abreviaturas.

Reglas para el procesamiento morfológico y sintáctico en los casos en que el conversor contempla un análisis lingüístico automático del texto de entrada o supervisión manual del resultado de un proceso de etiquetado automático.

Reglas de transcripción fonética automática, que establecen la correspondencia entre grafías y alófonos, la silabación y la acentuación, complementadas por diccionarios de pronunciación para el tratamiento de las excepciones.

Modelos de duración segmental que consideren los diversos factores que influyen en la duración y basados en datos procedentes de corpus representativos.

Modelos de intensidad segmental que, igualmente, consideren los factores que inciden en la intensidad y se basen en corpus representativos.

Modelos de asignación de pausas que contemplen tanto las marcadas mediante signos de puntuación como las no marcadas y que establezcan, además, diferencias de duración entre los distintos tipos de pausas.

Modelos de entonación que permitan generar una curva melódica natural, teniendo en cuenta factores fonéticos, sintácticos, semánticos y pragmáticos.

Establecimiento del inventario de fonemas y alófonos de la lengua para la constitución del diccionario de unidades de síntesis.

Diseño del corpus de unidades de síntesis teniendo en cuenta las restricciones fonotácticas de la lengua y la frecuencia de aparición de unidades.

Selección del locutor para la grabación del corpus de síntesis del que se extraen las unidades.

Supervisión de la grabación del corpus de síntesis para asegurar una realización adecuada de los elementos segmentales y suprasegmentales, tanto en los sistemas de síntesis por concatenación como en los basados en selección de unidades.

Segmentación (o supervisión de una segmentación semiautomática) del corpus de unidades de síntesis.

Evaluación objetiva de los distintos módulos del conversor, en un proceso iterativo que permita la corrección de errores.

Diseño de pruebas de evaluación subjetiva tanto de la inteligibilidad como de la naturalidad del resultado de la conversión de texto en habla.

La conversión de texto en habla

Reconocimiento automático del habla

Definición del inventario de fonemas y alófonos de la lengua para determinar las unidades del sistema de reconocimiento.

Diseño del corpus de entrenamiento teniendo en cuenta el inventario de unidades previamente definido y las restricciones sobre su aparición.

Selección de la muestra de población para la grabación del corpus de entrenamiento, considerando factores de variación individual, geográfica , social y de registro.

Segmentación (o supervisión de una segmentación semiautomática) del corpus de entrenamiento del reconocedor.

Realización o validación de los diccionarios de pronunciación, que incorporan las formas canónicas y las variantes encontradas en el corpus.

Análisis fonético acústico de corpus significativamente amplios:

El reconocimiento automático del habla

Sistemas de diálogo

Transcripción, anotación y estudio de corpus de interacciones naturales entre personas para definir el dominio del sistema, diseñar posibles estrategias de gestión del diálogo y establecer los escenarios que se emplearán en el corpus de entrenamiento.

Selección de la muestra de población para la obtención del corpus de entrenamiento, teniendo en cuenta factores de variación individual, geográfica, social y de registro.

Transcripción, anotación y análisis de corpus de interacciones simuladas (obtenidas mediante el protocolo del Mago de Oz) para el entrenamiento del sistema.

Diseño de estrategias de acceso, de salida y de confirmación adecuadas desde el punto de vista pragmático.

Estudio de los fenómenos propios del habla espontánea para modelarlos adecuadamente en el sistema de diálogo.

Análisis de la relación entre el nivel fonético y el nivel pragmático, especialmente en lo que se refiere a las manifestaciones prosódicas de los actos que habla y a los correlatos acústicos de las emociones.

Verificación del grado de corrección y adecuación lingüística del diálogo.

Los sistemas de diálogo

Colaboración del Grupo de Fonética (Departamento de Filología Española, UAB) en proyectos de tecnologías del habla desde 1992

CNET- Centre National d'Études des Télécommunications, Lannion (1992-1996)

Módulos lingüísticos del conversor de texto en habla en español.

Selección de locutores para la grabación de la base de datos de unidades de síntesis, supervisión de las grabaciones y evaluación del diccionario de unidades de síntesis.

Evaluación objetiva de los módulos lingüísticos del conversor: transcriptor, categorizador, pausador, asignación de duraciones, asignación de entonación.

Voz masculina “Rafael” comercializada por Élan.

CSELT - Centro Studi e Laboratori Telecomunicazioni, Torino (1998-2000)

Módulos lingüísticos del conversor de texto en habla en español.

Selección de locutores para la grabación de la base de datos de síntesis y supervisión de las grabaciones.

Evaluación objetiva de los módulos lingüísticos del conversor.

Modelos prosódicos para las oraciones interrogativas del español peninsular.

Loquendo, Torino (2000-2003)

Módulos lingüísticos, selección de locutores y superivisión de las grabaciones para el conversor de texto en habla en catalán.

Modelos prosódicos para las oraciones interrogativas en español mexicano, portugués brasileño, inglés, alemán y griego moderno.

Evaluación subjetiva de diferentes versiones del conversor y evaluación objetiva de los módulos de procesamiento lingüístico en catalán.

Voz masculina (Juan) y femenina (Carmen) en español y voz femenina (Montserrat) en catalán del sistema Actor.

Telefónica I+D, Madrid (1995-1999)

Creación de un protocolo de pruebas evaluación subjetiva y de diagnóstico para la evaluación de conversores de texto en habla en español y en catalán.

Módulos lingüísticos para el conversor de texto en habla en catalán.

Grup de Tractament de la Parla, Departament de Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya

FreeSpeech, Philips (1999)

Corpus de unidades fonéticas para el reconocimiento.

Transcripción fonética del vocabulario para el reconocedor.

aTTemps, Generalitat de Catalunya (2002)

Escenarios del sistema de diálogo.

Obtención, transcripción y anotación del corpus de entrenamiento.

Adecuación lingüística del sistema de diálogo.

up arrow

Los obstáculos para la integración del conocimiento fonético en las tecnologías del habla

Obstáculos derivados de la propia naturaleza de la información fonética disponible

La información fonética

“phonetics does not provide ready-made quantitative models that can be plugged directly into a system” (p. 177).

Strik, H. (2005). Is phonetic knowledge of any use for speech technology? En W. J. Barry y W. A. van Dommelen (Eds.), The integration of phonetic knowledge in speech technology. (pp. 167-80). Dordrecht: Springer. Consultado en http://hstrik.ruhosting.nl/wordpress/wp-content/uploads/2013/03/a115.pdf

La información fonética sobre un determinado fenómeno:

Barry, W. J., van Dommelen, W. A. y Koreman, J. (2005). Phonetic knowledge in speech technology - and phonetic knowledge from speech technology? En W. J. Barry y W. A. van Dommelen (Eds.), The integration of phonetic knowledge in speech technology. (pp. 1-12). Dordrecht: Springer. (p. 10). Consultado en http://www.coli.uni-saarland.de/~koreman/Publications/2005/Eurospeech2001.pdf

“First of all, it is clear that in order to be used in speech technology, phonetic knowledege has to be incorporated into the computational framework of a speech technology system” (p. 177).

Strik, H. (2005). Is phonetic knowledge of any use for speech technology? En W. J. Barry y W. A. van Dommelen (Eds.), The integration of phonetic knowledge in speech technology. (pp. 167-80). Dordrecht: Springer. Consultado en http://hstrik.ruhosting.nl/wordpress/wp-content/uploads/2013/03/a115.pdf

Datos de laboratorio:

Acceso a grandes corpus realistas

“The greater access phonetically trained researchers have to the databases and tools used in mainline technology applications, the more likely is that quantitative answers to phonetic questions can be presented in a way which can be useful for speech technology applications” (p. 11).

Barry, W. J., van Dommelen, W. A. y Koreman, J. (2005). Phonetic knowledge in speech technology - and phonetic knowledge from speech technology? En W. J. Barry y W. A. van Dommelen (Eds.), The integration of phonetic knowledge in speech technology. (pp. 1-12). Dordrecht: Springer. Consultado en http://www.coli.uni-saarland.de/~koreman/Publications/2005/Eurospeech2001.pdf

Centros de distribución de corpus orales

Proyectos con financiación pública.

Proyectos empresariales con financiación privada.

Proliferación de modelos

“There is too much emphasis on theoretical concepts and on the discussion of which one is better suited for the description of a special language or of languages in general . . . we want to distinguish between basic knowledge about the facts one observes and knowledge that is transformed into and mediated by a specific model” (pp. 25-27).

Batliner, A. y Möbius, B. (2005). Prosodic models, automatic speech understanding, and speech synthesis: Towards the common ground? En W. J. Barry y W. A. van Dommelen (Eds.), The integration of phonetic knowledge in speech technology. (pp. 21-44). Dordrecht: Springer.

Niveles de abstracción quizás innecesarios y conocimiento de los hechos mediatizado por el modelo.

“Phonological systems like the ToBI approach only introduce a quantisation error: the whole variety of F0 values available in acoustics is reduced to a mere binary opposition L vs. H, and to some few additional, diacritic distinctions” (p. 26).

Batliner, A. y Möbius, B. (2005). Prosodic models, automatic speech understanding, and speech synthesis: Towards the common ground? En W. J. Barry y W. A. van Dommelen (Eds.), The integration of phonetic knowledge in speech technology. (pp. 21-44). Dordrecht: Springer.

Obstáculos que obedecen a las distintas tradiciones académicas

Falta de formación interdisciplinar de los fonetistas.

“a successful phonetician working on a spoken language system will need some knowledge of computers, algorithms, statistics and signal processing […] Also desired is proficiency with common computing environments such as Windows, UNIX and Macintosh, text editors, and speech analysis packages” (p. 175).

Acero, A. (1995). The role of phoneticians in speech technology. En G. Bloothooft, V. Hazan, D. Huber y J. Llisterri (Eds.), European studies in phonetics and speech communication. (pp. 170-5). Utrecht: OTS Publications. Consultado en http://research.microsoft.com/pubs/77752/Acero-Phonetician.pdf

Mecanismos con los que se evalúa la investigación financiada con fondos públicos.

Proyectos que por su temática requieren la colaboración de expertos procedentes de campos diversos se llevan a cabo entre equipos del mismo ámbito.

Resultados de la separación entre las dos “culturas”:

“the phonetics community has not focused on questions most relevant for speech technology while the speech technology community has not developed algorithms and data structures that are optimally receptive for the incorporation of phonetic knowledge” (p. 149)..

van Santen, J. P. H. (2005). Phonetic knowledge in text-to-speech synthesis. En W. J. Barry y W. A. van Dommelen (Eds.), The integration of phonetic knowledge in speech technology. (pp. 149-66). Dordrecht: Springer.

“Cultura” tecnológica frente a “cultura” humanística (“aplicación” frente a “teoría”).

El vocabulario común.

La “formación” filológica.

El lingüista como “proveedor de datos”.

El lingüista como “revisor”.

up arrow

Algunas perspectivas de futuro

Motivos prácticos para incorporar conocimiento fonético

Reconocimiento del habla

Se obtienen buenos resultados en función de un corpus de entrenamiento de gran tamaño y de diccionarios de pronunciación que incorporan la variación documentada en el corpus.

La adaptación a nuevas situaciones no siempre se realiza con éxito.

Conversión de texto en habla

Naturalidad elevada en dominios restringidos.

La dependencia entre la fuente y el filtro reduce las posibilidades expresivas.

Obliga a disponer de un nuevo corpus cada vez que se requiere una nueva voz o una nueva aplicación.

“At present, ‘Unit selection’ concatenation is gaining ground in virtue of the human quality, but it is a poor medium for introducing prosody rules and lacks flexibility with respect to voice type. Diphone systems are better suited as we have shown. Articulatory oriented parametric systems will eventually take over. Some kind of hybrid systems may emerge” (p. 11).

Fant, G. (2004). Half a century in phonetics and speech research. In Speech acoustics and phonetics: Selected writings. (pp. 1-14). Dordrecht: Kluwer Academic Publishers. (Obra original publicada en 2000). Consultado en http://www.speech.kth.se/gunnarfant/halfcentury.pdf
Fant
Gunnar Fant (1919-2009)

Campos emergentes

Las emociones

Dificultades para recopilar un corpus realista.

Se suele recurrir a actores.

Repertorio de emociones básicas.

Se aplican algoritmos de aprendizaje automático hasta encontrar el que es capaz de obtener mejores resultados en el reconocimiento.

“there was very little expression of the big-six emotions. Instead, there were a great variety of different speaking styles that changed as a consequence of listener and subject differences”.

Campbell, N. (2004). Getting to the heart of the matter; speech is more than just the expression of text or language. En LREC '04. Proceedings of the 4th International Conference on Language Resources and Evaluation. (pp. 7-10). Paris: ELRA, European Language Resources Association. Consultado en http://www.speech-data.jp/nick/pubs/lrec-keynote.pdf
Campbell
Nick Campbell

Conocimiento incompleto del proceso de la comunicación humana.

Líneas de investigación en prosodia para la síntesis y el reconocimiento

Batliner, A. y Möbius, B. (2005). Prosodic models, automatic speech understanding, and speech synthesis: Towards the common ground? En W. J. Barry y W. A. van Dommelen (Eds.), The integration of phonetic knowledge in speech technology. (pp. 21-44). Dordrecht: Springer. (pp. 38-39

Realización de inventarios de funciones lingüísticas, paralingüísticas, léxicas y sintáctico/semánticas de la prosodia.

Diseño de un sistema de anotación motivado por consideraciones práctica y orientado a la forma más que a la función.

Establecimiento de procedimientos para modelar rasgos prosódicos a partir de bases de datos que no representen necesariamente a un hablante específico.

Reconocimiento de que los parámetros prosódicos no pueden modelarse independientemente ya que en el habla se producen de forma conjunta.

Líneas de investigación en conversión de texto en habla

van Santen, J. P. H. (2005). Phonetic knowledge in text-to-speech synthesis. En W. J. Barry y W. A. van Dommelen (Eds.), The integration of phonetic knowledge in speech technology. (pp. 149-66). Dordrecht: Springer. (pp. 162-163)

Estudio de la percepción de las discontinuidades espectrales propias de la concatenación.

Percepción de las discontinuidades en los contornos melódicos.

Análisis de los aspectos subsegmentales en la organización temporal de la producción del habla.

Modelado de la reducción vocálica.

Estudio de la variación inter e intralocutor.

Determinación de los umbrales diferenciales en la percepción de curvas melódicas.

Estudio de la percepción de las emociones generadas mediante síntesis.

Posibilidad de diseñar un modelo alternativo a ToBI para la descripción fonológica de la entonación.

Análisis y modelado multidimensional de la interacción entre rasgos prosódicos.

Existe una gran cantidad de conocimiento fonético útil:

“in part hidden in text-to-speech programs” (p. 10).

Fant, G. (2004). Half a century in phonetics and speech research. En Speech acoustics and phonetics: Selected writings. (pp. 1-14). Dordrecht: Kluwer Academic Publishers. (Obra original publicada en 2000). Consultado en http://www.speech.kth.se/gunnarfant/halfcentury.pdf
Fant
Gunnar Fant (1919-2009)

Las aproximaciones basadas en reglas son válidas:

“From detailed acoustic phonetic studies of text reading during the last 15 years, we have now been able to develop quite efficient prosodic rules for text-to-speech synthesis” (p. 9).

Fant, G. (2004). Half a century in phonetics and speech research. In Speech acoustics and phonetics: Selected writings. (pp. 1-14). Dordrecht: Kluwer Academic Publishers. (Obra original publicada en 2000). Consultado en http://www.speech.kth.se/gunnarfant/halfcentury.pdf
Fant
Gunnar Fant (1919-2009)

Corpus para realizar estudios fonéticos adaptados a las necesidades de las tecnologías del habla

“the way to integrate phonetic knowledge into speech technology is not by deriving the detailed acoustic structure of phones from sets of phonetic rules, but by basing both speech recognition and speech synthesis on more realistic models of speech production. The details are probably best derived from speech databases as at present” (p. 17).

Ainsworth, W. A. (2005). Can phonetic knowledge be used to improve the performance of speech recognisers and synthesisers? En W. J. Barry y W. A. van Dommelen (Eds.), The integration of phonetic knowledge in speech technology. (pp. 13-20). Dordrecht: Springer.

Proyectos en colaboración entre especialistas en fonética y equipos que desarrollan tecnologías del habla.

Diseño de corpus considerado desde el punto de vista fonético y desde las necesidades de la aplicación.

“Over the coming decades this tension is likely to dissolve into a collaborative relationship melding linguistic knowledge with machine-learning and statistical methods as a means of developing mature science and technology” (p. 129).

Greenberg, S. (2005). From here to utility - melding phonetic insight with speech technology. En W. J. Barry y W. A. van Dommelen (Eds.), The integration of phonetic knowledge in speech technology. (pp. 107-32). Dordrecht: Springer. Consultado en http://www.icsi.berkeley.edu/~steveng/PDF/Phonetic_Insight.pdf

Medidas prácticas

van Santen, J. P. H. (2005). Phonetic knowledge in text-to-speech synthesis. En W. J. Barry y W. A. van Dommelen (Eds.), The integration of phonetic knowledge in speech technology. (pp. 149-66). Dordrecht: Springer. (p. 164)

Incorporar materias relacionadas con la fonética y la lingüística en la formación de los tecnólogos y cursos de matemáticas, informática y procesamiento de señales en la de los fonetistas.

Organizar posgrados especializados en tecnologías del habla o licenciaturas conjuntas entre departamentos de lingüística, de ingeniería de telecomunicación y de informática para propiciar la formación de expertos en fonética computacional.

Moore, R. (1995). Computational phonetics. En ICPhS 1995. Proceedings of the 13th International Congress of Phonetic Sciences. Vol 4. (pp. 68-71). Stockholm: KTH - Stockholm University.

Organizar congresos en los que se programen sesiones en las que participen simultáneamente especialistas con formación humanística y tecnólogos.

Perspectivas

“My forecast for the future is that a more solid and integrated view of speech and language structure will develop and find its way also into speech recognition and synthesis work” (p. 11)..

Fant, G. (2004). Half a century in phonetics and speech research. In Speech acoustics and phonetics: Selected writings. (pp. 1-14). Dordrecht: Kluwer Academic Publishers. (Obra original publicada en 2000). Consultado en http://www.speech.kth.se/gunnarfant/halfcentury.pdf
Fant
Gunnar Fant (1919-2009)

La fonética ha tenido y debe seguir teniendo un papel relevante en las tecnologías del habla.

Existen obstáculos nada desdeñables, pero algunos pueden superarse:

up arrow

Conocimiento fonético y tecnologías del habla


Fonética y tecnologías del habla
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Last updated: