Los módulos lingüísticos en un conversor de texto en habla: el módulo de procesamiento previo del texto


Procesamiento previo del texto en la conversión de texto en habla


El módulo de procesamiento previo del texto

El módulo de procesamiento previo del texto realiza las mismas operaciones que un hablante leyendo en voz alta.

El objetivo es preparar el texto para la transcripción fonética automática.

Elementos que se convierten en texto “deletreado”:

up arrow

Problemas en el procesamiento previo del texto

Siglas y acrónimos

OTAN [otan] *[oteaene]

PP [pepe] *[pp]

PSOE [pesoe] *[peeseoe] *?[psoe]

Abreviaturas

VO *[bo] versión original

CV caballos - curriculum vitae

Concordancia en expresiones numéricas

* trescientos sesenta y cinco líneas

* quinientos libras

Formas apocopadas

100 casos: cien casos

10 %: diez por ciento

Números de teléfono

935811686: * Novecientos treinta y cinco millones ochocientos once mil seis cientos ochenta y seis

Horas

4.15: *cuatro punto quince

Códigos postales

28002 Madrid: *veintiocho mil dos Madrid

Fechas

13-11-98: *trece once noventa y ocho

Lectura del correo electrónico

Errores mecanográficos.

Errores ortográficos.

Falta de signos de puntuación.

Lectura de textos en sistemas de mensajería instantánea

“Abreviaturas” nuevas.

stoy n ksa 2# y slgo xa MAD tq

En algunos sistemas, el módulo de preprocesamiento del texto realiza operaciones como la silabación y la acentuación, además de la expansión de las abreviaturas, números, etc.

Frase normalizada: el Sr. josé luis lópez tiene 201 viñas.

Formato: mm abr Mm Mm Mm mm mm mm sig

Palabras: el se#or jos’e luis l’opez tiene doscientas una vi#as.

Palab_silab: el se. #or jo. s’e luis l’o. pez ti'e.ne dos. ci'en. tas ‘u. na v'i. #as.

Castejón, F., Escalada, G., Monzón, L., Rodríguez, M. A. y Sanz, P. (1994). Un conversor texto-voz para el español. Comunicaciones de Telefónica I+D, 5(2), 114-131.
up arrow

Módulo de normalización

El procesamiento previo del texto puede llevarse a cabo en un módulo de normalización.

Selecciona la frase como unidad de trabajo.

Normaliza la forma de escritura sin perder información relevante.

Texto: El Sr. José Luis López tiene 201 viñas.

Frase normalizada: el Sr. josé luis lópez tiene 201 viñas.

Formato: mm abr Mm Mm Mm mm mm mm sig

Códigos: mm: palabra en minúscula, Mm: palabra con inicial mayúscula, abr: abreviatura, sig: signo ortográfico

Castejón, F., Escalada, G., Monzón, L., Rodríguez, M. A. y Sanz, P. (1994). Un conversor texto-voz para el español. Comunicaciones de Telefónica I+D, 5(2), 114-131.
up arrow

Procesamiento previo del texto en la conversión de texto en habla


Los módulos lingüísticos en un conversor de texto en habla: el módulo de procesamiento previo del texto
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Last updated: