Memorias de investigación
Tesis:
Design and Evaluation of Statistical Parametric Techniques in Expressive Text-To-Speech: Emotion and Speaking Styles Transplantation
Año:2016

Áreas de investigación
  • Tecnología electrónica y de las comunicaciones,
  • Ingeniería eléctrica, electrónica y automática

Datos
Descripción
Esta tesis busca solucionar los problemas existentes en las técnicas tradicionales de síntesis de voz expresiva centrándose en un aspecto concreto: la escalabilidad. Por una parte, conseguir datos para todas las expresividades y locutores es una tarea inafrontable, y por otro lado las soluciones tradicionales suelen introducir otra clase de limitaciones en la naturalidad o intensidad expresiva. Esta tesis presenta en primer lugar un sistema capaz de controlar las características paralingüísticas de la voz (los cambios dinámicos en la forma de hablar que transmiten información expresiva), permitiéndonos controlar la intensidad expresiva generada en la síntesis. Así se vuelve posible generar diferentes niveles de intensidad expresiva comenzando con un único nivel de partida. En segundo lugar, presenta un sistema de trasplante de información paralingüística que permite incluir información expresiva en un locutor destino sin necesidad de tener información expresiva de dicho locutor. Finalmente se introduce un sistema completo de conversión texto a voz expresivo automático capaz de detectar que expresividad es la más adecuada para transmitir el texto que se desea sintetizar, y posteriormente generar el mensaje hablado correspondiente. Todos los sistemas propuestos y sus variantes han sido evaluados perceptualmente gracias a la colaboración de numerosos voluntarios, lo que nos ha permitido certificar los beneficios que aportan a las técnicas de síntesis de habla expresiva. Las evaluaciones fueron diseñadas para minimizar posibles sesgos en las evaluaciones y fueron analizadas con estrictos criterios de significancia estadística, fijando bandas de confianza del 95%. Los resultados de las evaluaciones demostraron que el sistema de control de características paralingüísticas es capaz de controlar de forma prácticamente lineal la intensidad emocional generada (0,97 de correlación con el sistema ideal) a la vez que aporta un 70,6% de tasas de reconocimiento de las emociones sintetizadas, valores muy superiores a los conseguidos con las técnicas tradicionales. El sistema de trasplante de información paralingüística es capaz de mejorar en 1,2 puntos MOS la intensidad emocional generada en el locutor destino a costa de 0,4 puntos de calidad, traduciéndose en una media de 87% de preferencia de los evaluadores hacia un sistema trasplantado frente a un sistema no emocional. Finalmente, para la evaluación y diseño del sistema completo de conversión texto a voz expresivo automático empezamos por grabar una base de datos de estilos de habla de un único locutor en castellano. Esta base de datos es la primera de su clase pensada explícitamente para la tarea de síntesis de estilos de habla, tarea para la que constar con un único locutor aumenta significativamente la calidad. Con estos datos se evaluaron tres enfoques del sistema de síntesis: uno discreto en el que se predice el estilo de habla a partir del texto y se sintetiza directamente, uno semi-continuo en el que además se extrae información del texto que permite generar una intensidad expresiva más adecuada y finalmente un sistema continuo que no depende de ninguna predicción, sino que directamente utiliza información léxica para generar la voz. Los resultados muestran que los tres sistemas son capaces de mejorar significativamente los resultados de la síntesis tradicional en términos de adecuación de la voz generada (en media entre 1,0 y 1,5 por encima) y en intensidad expresiva (entre 1,1 y 2,0 mejor dependiendo del sistema). En cuanto a calidad los sistemas discreto y semi-continuo no sufren ninguna caída en comparación a los mejores sistemas neutros (4 puntos MOS en media). El sistema continuo, principalmente debido a la naturaleza semi-continua de los datos de entrenamiento, introduce artefactos que estropean la calidad de la voz generada.
Internacional
No
ISBN
Tipo de Tesis
Doctoral
Calificación
Sobresaliente
Fecha
02/06/2016

Esta actividad pertenece a memorias de investigación

Participantes

Grupos de investigación, Departamentos, Centros e Institutos de I+D+i relacionados
  • Creador: Grupo de Investigación: Grupo de Tecnología del Habla
  • Centro o Instituto I+D+i: Centro de I+d+i en Procesado de la Información y Telecomunicaciones
  • Departamento: Ingeniería Electrónica