VILE, Estudio acústico y perceptivo de la variación inter e intralocutor en español

Tarea 1: Manipulación de la señal

Tarea 1.1: Selección de la herramienta de análisis más adecuada para la manipulación de la señal


Estímulos originales extraídos del corpus VILE y estímulos resintetizados mediante Praat

Estímulos originales Estímulos resintetizados mediante Praat
a_a.wav resintesis_a_a.wav
a_cara.wav resintesis_a_cara.wav
a_vuela.wav resintesis_a_vuela.wav
e_aire.wav resintesis_e_aire.wav
e_en.wav resintesis_e_en.wav
e_ese.wav resintesis_e_ese.wav
e_que.wav resintesis_e_que.wav
i_sentido.wav resintesis_i_sentido.wav
o_algo.wav resintesis_o_algo.wav
o_cosas.wav resintesis_o_cosas.wav
o_toca.wav resintesis_o_toca.wav
u_buscando.wav resintesis_u_buscando.wav

Estímulos manipulados con CSL y estímulos resintetizados mediante Praat

Estímulos originalesEstímulos manipulados con CSL Estímulos resintetizados mediante Praat
a_cara.wava_carasint.wav resintesis_a_cara.wav
e_que.wave_quesint.wav resintesis_e_que.wav

Fichero a_carasint.wav

Valores originales

Valores modificados

Valor medio de F1: 549,375 Hz
Valor medio de F2: 1769,125 Hz

Detección automática de formantes en Praat

Time_s F1_Hz F2_Hz F3_Hz F4_Hz
0.025719 628.086609 1585.082764 2097.677002 3556.722168
0.031969 622.306091 1465.866577 2140.021484 3516.295166
0.038219 633.630798 1613.533936 2123.183838 3578.074463

Valores medios de los formantes en Praat (en todo el segmento)

628.0078328450521 Hertz (mean F1 in SELECTION)
1554.8277587890625 Hertz (mean F2 in SELECTION)
2120.2941080729165 Hertz (mean F3 in SELECTION)
3550.3639322916665 Hertz (mean F4 in SELECTION)

Valores medios de los formantes en Praat (únicamente en la parte central del segmento donde Praat detecta formantes)

627.2315269897954 Hertz (mean F1 in SELECTION)
1542.3856396221004 Hertz (mean F2 in SELECTION)
2123.2339532535875 Hertz (mean F3 in SELECTION)
3545.6584838054873 Hertz (mean F4 in SELECTION)

Valores de los formantes en WaveSurfer (únicamente en la parte en la que WaveSurfer detecta formantes)

F1 F2 F3 F4
600.0 1456.002 2120.0 3498.676
600.0 1442.278 2000.0 3427.254

Comentarios

Los valores de frecuencia del primer formante parecen corresponder a los modificados (627-628 Hz en las mediciones y 608-664 Hz en el estímulo sintetizado).

Praat detecta un segundo formante hacia 1540-1550 Hz que no parece corresponder a ningún valor del estímulo sintetizado.

Los valores que Praat detecta como F3 (2120 Hz) no se corresponden con ninguno de los valores de F2 del estímulo sintetizado.

Los valores que Praat detecta como F4 (3545-3550 Hz) parecen corresponder a dos de los valores de F2 del estímulo sintetizado (3471 Hz, 3319 Hz).

Se observan algunas discrepancias entre los valores proporcionados por Praat y los proporcionados por WaveSurfer.

Praat no llega a detectar valores de F0 en el fichero.

Fichero e_quesint.wav

Valores originales

Valores modificados

Valor medio de F1: 433,111 Hz
Valor medio de F2: 2032, 222 Hz

Detección automática de formantes en Praat

Time_s F1_Hz F2_Hz F3_Hz F4_Hz
0.026781 447.378906 1996.915894 2602.953369 3871.742676
0.033031 483.558777 1989.958740 2455.569092 3867.045898
0.039281 477.418732 1991.914795 2569.053711 3932.158203
0.045531 491.847870 1975.017090 2650.777344 3956.557617
0.051781 466.690369 1965.113525 2624.920898 3924.660889
0.058031 426.305603 1976.597168 3025.576172 3952.229248
0.064281 380.959320 1987.140747 3269.682129 3940.277588
0.070531 342.305115 1976.071289 2246.430176 3787.113770

Valores medios de los formantes en Praat (en todo el segmento)

439.5580863952637 Hertz (mean F1 in SELECTION)
1982.3411560058594 Hertz (mean F2 in SELECTION)
2680.620361328125 Hertz (mean F3 in SELECTION)
3903.9732360839844 Hertz (mean F4 in SELECTION)

Valores medios de los formantes en Praat (únicamente en la parte central del segmento donde Praat detecta formantes)

442.1014695906506 Hertz (mean F1 in SELECTION)
1981.9395555484216 Hertz (mean F2 in SELECTION)
2696.5007491914057 Hertz (mean F3 in SELECTION)
3908.702633031424 Hertz (mean F4 in SELECTION)

Valores de los formantes en WaveSurfer (únicamente en la parte en la que WaveSurfer detecta formantes)

F1 F2 F3 F4
437.782 1969.596 2316.668 3740.887
461.223 1965.715 2185.189 4036.475
374.945 1993.762 2724.364 3902.843
381.422 1968.509 2783.830 3936.291
344.246 1989.087 3586.386 3956.194

Comentarios

El valor medio de F1 detectado por Praat (440 Hz) corresponde a algunos de los valores del estímulo sintetizado y se acerca bastante a la media de los valores del estímulo sintetizado (433 Hz).

Praat detecta un F2 hacia los 1980 Hz que se acerca a la media de los valores del estímulo sintetizado (2032 Hz) y corresponde con algunos de los valores.

El valor medio que Praat detecta como F4 (3900 Hz) parece corresponder a uno de los valores de F2 del estímulo sintetizado (4046 Hz).

En general, parece haber una correspondencia aceptable entre los valores de Praat y los de WaveSurfer.

Praat no llega a detectar valores de F0 en el fichero

Factores que inciden en la calidad de la resíntesis

Vocal Resultado en la resíntesis realizada con Praat Modificación de formantes con CSL Duración (s) Pulsos glotales detectados automáticamentre por Praat Puntos correspondientes a formantes detectados automáticamente por Praat
resintesis_a_vuela.wav

Estímulo original: a_vuela.wav

0 “Golpe” Imposible 0.12 16 en la versión en Windows - 0 en la versión en Mac OS X 13 (muy irregulares)
resintesis_o_algo.wav 0 “Golpe” / Muy malo Imposible 0.05 6 1
resintesis_a_a.wav 1 Muy malo Imposible 0.06 0 3
resintesis_a_cara.wav 1 Muy malo
a_carasint.wav
0.07 4 4
resintesis_e_ese.wav 2 Malo
0.08 4 7
resintesis_e_que.wav 2 Malo
e_quesint.wav
0.09 3 8
resintesis_o_toca.wav 2 Malo
0.07 0 4
resintesis_u_buscando.wav 2 Malo
0.08 4 6
resintesis_i_sentido.wav 3 Bastante malo
0.07 3 4
resintesis_o_cosas.wav 3 Bastante malo
0.08 3 6
resintesis_e_aire.wav 4 Bastante bueno
0.14 6 16
resintesis_e_en.wav 4 Bastante bueno
0.15 10 17

Las vocales corresponden a muestras extraídas del corpus.

En el proceso de resíntesis no se han modificado valores de formantes; únicamente se han extraído la fuente y el filtro mediante Praat y se han vuelto a combinar. Puesto que la modificación de formantes requiere realizar, en primer lugar, este proceso, era necesario asegurarse de su buen funcionamiento con las muestras del corpus.

Parece que si el número de pulsos glotales detectados automáticamente por Praat y el número de puntos en la detección automática de formantes aumentan, mejoran los resultados de la resíntesis.

Podría pensarse que utilizando obtendremos resultdos aceptables con sonidos que tengan una duración superior a 150 ms (0.15 s).

Utilizando CSL parece que se pueden obtener resultados con sonidos más breves; éstos pueden también resintetizarse con Praat, pero la calidad del resultado no es, por el momento, demasiado aceptable.

En el caso de “a_vuela”, Praat llega a detectar formantes y según la versión del programa detecta también pulsos glotales; aun así, la calidad de la resíntesis es muy baja y parece deberse a problemas de fuente (figura 1 y ejemplos sonoros). Auditivamente, llega a parecer una vocal ensordecida.


a_vuela

Figura 1: Oscilograma, espectrograma y detección automática de formantes mediante Praat en en estímulo original "a_vuela"


Última actualización: 3/4/15 23:43