Observatorio de I+D+i UPM

| Otras actividades
HOME

Proyectos Internacionales Art�culos Patentes UPM Software UPM Empresas UPM Otras actividades Memorias de investigaci�n

Memorias de investigación

Tesis:

S�ntesis multilocutor aplicando t�cnicas de conversi�n de hablante

A�o:2008

�reas de investigaci�n

Inteligencia artificial,
Industria electr�nica

Datos

Descripci�n
Las t�cnicas de conversi�n de locutor transforman la se�al de voz pronunciada por una persona para que sea percibida como si la hubiera dicho otra persona. Se denomina locutor fuente al hablante inicial y locutor deseado a la identidad que se pretende obtener. Tradicionalmente la transformaci�n se aplica al habla natural o al habla sint�tica como un procesado posterior a la s�ntesis. El objetivo de esta tesis es estudiar las t�cnicas propuestas hasta el momento e incorporarlas en un sistema de s�ntesis de voz. Por ello es necesario conocer a fondo el m�todo de s�ntesis a utilizar y estudiar y desarrollar la t�cnica que mejor se adapte a sus caracter�sticas. Se han estudiado dos propuestas de sintetizador: 1. Sintetizador de formantes que concatena unidades parametrizadas. En este caso los par�metros que se utilizan para la s�ntesis son los cinco primeros formantes y cuatro par�metros de fuente glotal del modelo LF (Liljencrants & Fant). 2. El segundo de los sintetizadores es un sintetizador LP (Linear Prediction) que concatena unidades codificadas. El modelo de fuente utilizado es un polinomio de sexto orden para modelar la integral del residuo y un filtro posterior para a�adir riqueza frecuencial a la se�al. En ambos casos se han desarrollado o modificado las herramientas necesarias para realizar el an�lisis de 455 unidades correspondientes a cuatro locutores: dos hombres y dos mujeres. Las t�cnicas de conversi�n utilizadas son: 1. Para el sintetizador por formantes se aplica una transformaci�n lineal para convertir los cinco primeros formantes y copiamos los par�metros del modelo LF del locutor deseado. 2. En el caso del sintetizador LP la t�cnica de transformaci�n empleada es la del mapeado de codebooks para acercar lo m�ximo los coeficientes LPC (Linear Prediction Coefficients) del locutor base a los del locutor deseado y en este caso se mantiene la fuente del locutor base. Se ha estudiado la relevancia de los par�metros utilizados en la s�ntesis por formantes en cuanto a la identidad del locutor se refiere. La conclusi�n de dicho estudio nos indica que la informaci�n sobre la identidad del locutor est� repartida entre todos los par�metros analizados siendo los m�s relevantes la frecuencia fundamental, F0, y las frecuencias form�nticas. Se ha modificado la fuente del sintetizador LP para favorecer la transformaci�n del locutor. Se ha comprobado que el modelo de fuente propuesto mantiene una calidad equivalente al sintetizador que utiliza las unidades codificadas CELP (Coded Excited Linear Prediction). Se han realizado pruebas objetivas y subjetivas para evaluar la capacidad de transformar el hablante y la calidad de la voz sintetizada. Se demuestra que las t�cnicas empleadas son eficientes a la hora de cambiar la identidad del locutor pero tambi�n se observa una degradaci�n de la calidad de la voz.
Internacional	No
ISBN
Tipo de Tesis	Doctoral
Calificaci�n	Sobresaliente cum laude
Fecha	23/06/2008

Esta actividad pertenece a memorias de investigaci�n

Participantes

Autor: Juana Maria Gutierrez Arriola UPM
Director: Jose Manuel Pardo Mu�oz UPM

Grupos de investigaci�n, Departamentos, Centros e Institutos de I+D+i relacionados

Creador: Grupo de Investigaci�n: Grupo de Tecnolog�a del Habla
Departamento: Ingenier�a de Circuitos y Sistemas
Departamento: Ingenier�a Electr�nica