Observatorio de I+D+i UPM

Memorias de investigación
Tesis:
Síntesis multilocutor aplicando técnicas de conversión de hablante
Año:2008
Áreas de investigación
  • Inteligencia artificial,
  • Industria electrónica
Datos
Descripción
Las técnicas de conversión de locutor transforman la señal de voz pronunciada por una persona para que sea percibida como si la hubiera dicho otra persona. Se denomina locutor fuente al hablante inicial y locutor deseado a la identidad que se pretende obtener. Tradicionalmente la transformación se aplica al habla natural o al habla sintética como un procesado posterior a la síntesis. El objetivo de esta tesis es estudiar las técnicas propuestas hasta el momento e incorporarlas en un sistema de síntesis de voz. Por ello es necesario conocer a fondo el método de síntesis a utilizar y estudiar y desarrollar la técnica que mejor se adapte a sus características. Se han estudiado dos propuestas de sintetizador: 1. Sintetizador de formantes que concatena unidades parametrizadas. En este caso los parámetros que se utilizan para la síntesis son los cinco primeros formantes y cuatro parámetros de fuente glotal del modelo LF (Liljencrants & Fant). 2. El segundo de los sintetizadores es un sintetizador LP (Linear Prediction) que concatena unidades codificadas. El modelo de fuente utilizado es un polinomio de sexto orden para modelar la integral del residuo y un filtro posterior para añadir riqueza frecuencial a la señal. En ambos casos se han desarrollado o modificado las herramientas necesarias para realizar el análisis de 455 unidades correspondientes a cuatro locutores: dos hombres y dos mujeres. Las técnicas de conversión utilizadas son: 1. Para el sintetizador por formantes se aplica una transformación lineal para convertir los cinco primeros formantes y copiamos los parámetros del modelo LF del locutor deseado. 2. En el caso del sintetizador LP la técnica de transformación empleada es la del mapeado de codebooks para acercar lo máximo los coeficientes LPC (Linear Prediction Coefficients) del locutor base a los del locutor deseado y en este caso se mantiene la fuente del locutor base. Se ha estudiado la relevancia de los parámetros utilizados en la síntesis por formantes en cuanto a la identidad del locutor se refiere. La conclusión de dicho estudio nos indica que la información sobre la identidad del locutor está repartida entre todos los parámetros analizados siendo los más relevantes la frecuencia fundamental, F0, y las frecuencias formánticas. Se ha modificado la fuente del sintetizador LP para favorecer la transformación del locutor. Se ha comprobado que el modelo de fuente propuesto mantiene una calidad equivalente al sintetizador que utiliza las unidades codificadas CELP (Coded Excited Linear Prediction). Se han realizado pruebas objetivas y subjetivas para evaluar la capacidad de transformar el hablante y la calidad de la voz sintetizada. Se demuestra que las técnicas empleadas son eficientes a la hora de cambiar la identidad del locutor pero también se observa una degradación de la calidad de la voz.
Internacional
No
ISBN
Tipo de Tesis
Doctoral
Calificación
Sobresaliente cum laude
Fecha
23/06/2008
Esta actividad pertenece a memorias de investigación
Participantes
  • Autor: Juana Maria Gutierrez Arriola (UPM)
  • Director: Jose Manuel Pardo Muñoz (UPM)
Grupos de investigación, Departamentos, Centros e Institutos de I+D+i relacionados
  • Creador: Grupo de Investigación: Grupo de Tecnología del Habla
  • Departamento: Ingeniería de Circuitos y Sistemas
  • Departamento: Ingeniería Electrónica
S2i 2021 Observatorio de investigación @ UPM con la colaboración del Consejo Social UPM
Cofinanciación del MINECO en el marco del Programa INNCIDE 2011 (OTR-2011-0236)
Cofinanciación del MINECO en el marco del Programa INNPACTO (IPT-020000-2010-22)