Los módulos lingüísticos en un conversor de texto en habla: el módulo de procesamiento previo del texto
Esta página ha dejado de actualizarse
El módulo de procesamiento previo del texto realiza las mismas operaciones que un hablante leyendo en voz alta.
El objetivo es preparar el texto para la transcripción fonética automática.
Elementos que se convierten en texto «deletreado»:
- Abreviaturas (Sr., D.)
- Siglas (UE, ONU)
- Cifras y ordinales (3, 1º, 2a)
- Fechas (13.06.1959)
- Horas (15.30h)
- Medidas (m, cm, Km)
- Números romanos (Pedro IV)
- Letras aisladas
- Símbolos especiales ($)
Siglas y acrónimos
OTAN [otan] *[oteaene]
PP [pepe] *[pp]
PSOE [pesoe] *[peeseoe] *?[psoe]
Abreviaturas
VO *[bo] versión original
CV caballos - curriculum vitae
Concordancia en expresiones numéricas
* trescientos sesenta y cinco líneas
* quinientos libras
Formas apocopadas
100 casos: cien casos
10 %: diez por ciento
Números de teléfono
935811686: * Novecientos treinta y cinco millones ochocientos once mil seis cientos ochenta y seis
Horas
4.15: *cuatro punto quince
Códigos postales
28002 Madrid: *veintiocho mil dos Madrid
Fechas
13-11-98: *trece once noventa y ocho
Lectura del correo electrónico
Errores mecanográficos.
Errores ortográficos.
Falta de signos de puntuación.
Lectura de textos en sistemas de mensajería instantánea
«Abreviaturas» nuevas.
stoy n ksa 2# y slgo xa MAD tq
En algunos sistemas, el módulo de preprocesamiento del texto realiza operaciones como la silabación y la acentuación, además de la expansión de las abreviaturas, números, etc.
Frase normalizada: el Sr. josé luis lópez tiene 201 viñas.
Formato: mm abr Mm Mm Mm mm mm mm sig
Palabras: el se#or jos’e luis l’opez tiene doscientas una vi#as.
Palab_silab: el se. #or jo. s’e luis l’o. pez ti'e.ne dos. ci'en. tas ‘u. na v'i. #as.
Castejón, F., Escalada, G., Monzón, L., Rodríguez, M. A. y Sanz, P. (1994). Un conversor texto-voz para el español. Comunicaciones de Telefónica I+D, 5(2), 114–131.
El procesamiento previo del texto puede llevarse a cabo en un módulo de normalización.
Selecciona la frase como unidad de trabajo.
Normaliza la forma de escritura sin perder información relevante.
Texto: El Sr. José Luis López tiene 201 viñas.
Frase normalizada: el Sr. josé luis lópez tiene 201 viñas.
Formato: mm abr Mm Mm Mm mm mm mm sig
Códigos: mm: palabra en minúscula, Mm: palabra con inicial mayúscula, abr: abreviatura, sig: signo ortográfico
Castejón, F., Escalada, G., Monzón, L., Rodríguez, M. A. y Sanz, P. (1994). Un conversor texto-voz para el español. Comunicaciones de Telefónica I+D, 5(2), 114–131.
Procesamiento previo del texto en la conversión de texto en habla
Los módulos lingüísticos en un conversor de texto en habla: el módulo de procesamiento previo del texto
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Darrera actualització: Esta página ha dejado de actualizarse