Observatorio de I+D+i UPM

| Otras actividades
HOME

Proyectos Internacionales Art�culos Patentes UPM Software UPM Empresas UPM Otras actividades Memorias de investigaci�n

Memorias de investigación

Tesis:

Design and Evaluation of Statistical Parametric Techniques in Expressive Text-To-Speech: Emotion and Speaking Styles Transplantation

A�o:2016

�reas de investigaci�n

Tecnolog�a electr�nica y de las comunicaciones,
Ingenier�a el�ctrica, electr�nica y autom�tica

Datos

Descripci�n
Esta tesis busca solucionar los problemas existentes en las t�cnicas tradicionales de s�ntesis de voz expresiva centr�ndose en un aspecto concreto: la escalabilidad. Por una parte, conseguir datos para todas las expresividades y locutores es una tarea inafrontable, y por otro lado las soluciones tradicionales suelen introducir otra clase de limitaciones en la naturalidad o intensidad expresiva. Esta tesis presenta en primer lugar un sistema capaz de controlar las caracter�sticas paraling��sticas de la voz (los cambios din�micos en la forma de hablar que transmiten informaci�n expresiva), permiti�ndonos controlar la intensidad expresiva generada en la s�ntesis. As� se vuelve posible generar diferentes niveles de intensidad expresiva comenzando con un �nico nivel de partida. En segundo lugar, presenta un sistema de trasplante de informaci�n paraling��stica que permite incluir informaci�n expresiva en un locutor destino sin necesidad de tener informaci�n expresiva de dicho locutor. Finalmente se introduce un sistema completo de conversi�n texto a voz expresivo autom�tico capaz de detectar que expresividad es la m�s adecuada para transmitir el texto que se desea sintetizar, y posteriormente generar el mensaje hablado correspondiente. Todos los sistemas propuestos y sus variantes han sido evaluados perceptualmente gracias a la colaboraci�n de numerosos voluntarios, lo que nos ha permitido certificar los beneficios que aportan a las t�cnicas de s�ntesis de habla expresiva. Las evaluaciones fueron dise�adas para minimizar posibles sesgos en las evaluaciones y fueron analizadas con estrictos criterios de significancia estad�stica, fijando bandas de confianza del 95%. Los resultados de las evaluaciones demostraron que el sistema de control de caracter�sticas paraling��sticas es capaz de controlar de forma pr�cticamente lineal la intensidad emocional generada (0,97 de correlaci�n con el sistema ideal) a la vez que aporta un 70,6% de tasas de reconocimiento de las emociones sintetizadas, valores muy superiores a los conseguidos con las t�cnicas tradicionales. El sistema de trasplante de informaci�n paraling��stica es capaz de mejorar en 1,2 puntos MOS la intensidad emocional generada en el locutor destino a costa de 0,4 puntos de calidad, traduci�ndose en una media de 87% de preferencia de los evaluadores hacia un sistema trasplantado frente a un sistema no emocional. Finalmente, para la evaluaci�n y dise�o del sistema completo de conversi�n texto a voz expresivo autom�tico empezamos por grabar una base de datos de estilos de habla de un �nico locutor en castellano. Esta base de datos es la primera de su clase pensada expl�citamente para la tarea de s�ntesis de estilos de habla, tarea para la que constar con un �nico locutor aumenta significativamente la calidad. Con estos datos se evaluaron tres enfoques del sistema de s�ntesis: uno discreto en el que se predice el estilo de habla a partir del texto y se sintetiza directamente, uno semi-continuo en el que adem�s se extrae informaci�n del texto que permite generar una intensidad expresiva m�s adecuada y finalmente un sistema continuo que no depende de ninguna predicci�n, sino que directamente utiliza informaci�n l�xica para generar la voz. Los resultados muestran que los tres sistemas son capaces de mejorar significativamente los resultados de la s�ntesis tradicional en t�rminos de adecuaci�n de la voz generada (en media entre 1,0 y 1,5 por encima) y en intensidad expresiva (entre 1,1 y 2,0 mejor dependiendo del sistema). En cuanto a calidad los sistemas discreto y semi-continuo no sufren ninguna ca�da en comparaci�n a los mejores sistemas neutros (4 puntos MOS en media). El sistema continuo, principalmente debido a la naturaleza semi-continua de los datos de entrenamiento, introduce artefactos que estropean la calidad de la voz generada.
Internacional	No
ISBN
Tipo de Tesis	Doctoral
Calificaci�n	Sobresaliente
Fecha	02/06/2016

Esta actividad pertenece a memorias de investigaci�n

Participantes

Autor: Jaime Lorenzo Trueba UPM
Director: Juan Manuel Montero Martinez UPM
Director: Roberto Barra Chicote UPM

Grupos de investigaci�n, Departamentos, Centros e Institutos de I+D+i relacionados

Creador: Grupo de Investigaci�n: Grupo de Tecnolog�a del Habla
Centro o Instituto I+D+i: Centro de I+d+i en Procesado de la Informaci�n y Telecomunicaciones
Departamento: Ingenier�a Electr�nica