Observatorio de I+D+i UPM

Memorias de investigación
Thesis:
Design and Evaluation of Statistical Parametric Techniques in Expressive Text-To-Speech: Emotion and Speaking Styles Transplantation
Year:2016
Research Areas
  • Electronic technology and of the communications,
  • Electric engineers, electronic and automatic (eil)
Information
Abstract
Esta tesis busca solucionar los problemas existentes en las técnicas tradicionales de síntesis de voz expresiva centrándose en un aspecto concreto: la escalabilidad. Por una parte, conseguir datos para todas las expresividades y locutores es una tarea inafrontable, y por otro lado las soluciones tradicionales suelen introducir otra clase de limitaciones en la naturalidad o intensidad expresiva. Esta tesis presenta en primer lugar un sistema capaz de controlar las características paralingüísticas de la voz (los cambios dinámicos en la forma de hablar que transmiten información expresiva), permitiéndonos controlar la intensidad expresiva generada en la síntesis. Así se vuelve posible generar diferentes niveles de intensidad expresiva comenzando con un único nivel de partida. En segundo lugar, presenta un sistema de trasplante de información paralingüística que permite incluir información expresiva en un locutor destino sin necesidad de tener información expresiva de dicho locutor. Finalmente se introduce un sistema completo de conversión texto a voz expresivo automático capaz de detectar que expresividad es la más adecuada para transmitir el texto que se desea sintetizar, y posteriormente generar el mensaje hablado correspondiente. Todos los sistemas propuestos y sus variantes han sido evaluados perceptualmente gracias a la colaboración de numerosos voluntarios, lo que nos ha permitido certificar los beneficios que aportan a las técnicas de síntesis de habla expresiva. Las evaluaciones fueron diseñadas para minimizar posibles sesgos en las evaluaciones y fueron analizadas con estrictos criterios de significancia estadística, fijando bandas de confianza del 95%. Los resultados de las evaluaciones demostraron que el sistema de control de características paralingüísticas es capaz de controlar de forma prácticamente lineal la intensidad emocional generada (0,97 de correlación con el sistema ideal) a la vez que aporta un 70,6% de tasas de reconocimiento de las emociones sintetizadas, valores muy superiores a los conseguidos con las técnicas tradicionales. El sistema de trasplante de información paralingüística es capaz de mejorar en 1,2 puntos MOS la intensidad emocional generada en el locutor destino a costa de 0,4 puntos de calidad, traduciéndose en una media de 87% de preferencia de los evaluadores hacia un sistema trasplantado frente a un sistema no emocional. Finalmente, para la evaluación y diseño del sistema completo de conversión texto a voz expresivo automático empezamos por grabar una base de datos de estilos de habla de un único locutor en castellano. Esta base de datos es la primera de su clase pensada explícitamente para la tarea de síntesis de estilos de habla, tarea para la que constar con un único locutor aumenta significativamente la calidad. Con estos datos se evaluaron tres enfoques del sistema de síntesis: uno discreto en el que se predice el estilo de habla a partir del texto y se sintetiza directamente, uno semi-continuo en el que además se extrae información del texto que permite generar una intensidad expresiva más adecuada y finalmente un sistema continuo que no depende de ninguna predicción, sino que directamente utiliza información léxica para generar la voz. Los resultados muestran que los tres sistemas son capaces de mejorar significativamente los resultados de la síntesis tradicional en términos de adecuación de la voz generada (en media entre 1,0 y 1,5 por encima) y en intensidad expresiva (entre 1,1 y 2,0 mejor dependiendo del sistema). En cuanto a calidad los sistemas discreto y semi-continuo no sufren ninguna caída en comparación a los mejores sistemas neutros (4 puntos MOS en media). El sistema continuo, principalmente debido a la naturaleza semi-continua de los datos de entrenamiento, introduce artefactos que estropean la calidad de la voz generada.
International
No
Type
Doctoral
Mark Rating
Sobresaliente
Date
02/06/2016
Participants
  • Autor: Jaime Lorenzo Trueba (UPM)
  • Director: Juan Manuel Montero Martinez (UPM)
  • Director: Roberto Barra Chicote (UPM)
Research Group, Departaments and Institutes related
  • Creador: Grupo de Investigación: Grupo de Tecnología del Habla
  • Centro o Instituto I+D+i: Centro de I+d+i en Procesado de la Información y Telecomunicaciones
  • Departamento: Ingeniería Electrónica
S2i 2020 Observatorio de investigación @ UPM con la colaboración del Consejo Social UPM
Cofinanciación del MINECO en el marco del Programa INNCIDE 2011 (OTR-2011-0236)
Cofinanciación del MINECO en el marco del Programa INNPACTO (IPT-020000-2010-22)