Observatorio de I+D+i UPM

Memorias de investigación
Estancias o Sabáticos:
Investigador visitante en el centro CSTR para el proyecto "Nuevas técnicas de síntesis de habla expresiva basada en Modelos de Markov" "Research on expressive speech synthesis". Estancia en el CSTR de Edimburgo.
Año:2013
Áreas de investigación
  • Tecnología electrónica y de las comunicaciones,
  • Ingeniería eléctrica, electrónica y automática
Datos
Descripción
Recibida Ayuda de investigación del Ministerio de Educación para realizar una estancia en el CSTR de Edimburgo (de 3/5/2013 a 29/7/2013) Para conseguir sistemas de interacción vocal que sean usados con éxito en un gran conjunto de aplicaciones, debemos ser capaces de crear voces que sean apropiadas al contexto de aplicación, sin tener que recurrir al concurso de expertos humanos (desde ingenieros a lingüistas) que proporcionen una gran cantidad de datos etiquetados muy costosos. Una de las principales limitaciones de los sistemas de conversión texto-habla actuales es el limitado rango de estilos de habla que presentan, limitándose a voz leída o emociones actuadas, estilos que aunque resultan interesantes y he desarrollado a lo largo de mi carrera investigadora, no cubren el espectro posible de aplicaciones de la síntesis de habla, que incluye sistemas de diálogo persona-máquina, juegos asistentes personales, e-learning, etcétera. En este proyecto de investigación me propongo investigar en la extrapolación del estilo de habla de un conjunto de grabaciones de uno o varios locutores, a la voz de otros locutores para los cuales no disponemos de grabaciones de ese estilo, aunque disponemos de grabaciones de estilo estándar de voz leída neutralizada, y en la incorporación de un nuevo modelo de habla que permita incorporar intrínsecamente la expresividad dentro del modelo. El éxito de mi investigación conduciría a un sistema de síntesis adaptable a un nuevo dominio de aplicación sin necesidad de disponer de datos del locutor cuyo timbre queremos emplear en nuestra aplicación, pudiéndose dotar de mayor expresividad, por ejemplo, a una voz que carece de ellos, de la misma manera que un locutor profesional adapta su estilo de habla a cada trabajo que se le contrata. Con las nuevas técnicas propuestas de extrapolación de estilos, además de avanzar el estado del arte de las técnicas de síntesis, se podrán crear servicios innovadores por parte de pequeñas empresas y organizaciones que permitan superar las barreras de coste actuales en el desarrollo de nuevas aplicaciones de valor añadido que gocen de una interacción mucho más rica entre las personas y los sistemas informáticos, con capacidad para generar señales o indicios sociales no verbales que vayan más allá de la simple transmisión oral de un mensaje. Para poder realizar una extrapolación de estilos de habla, necesitamos disponer de un sistema de habla paramétrico, que permita disponer de un modelo matemático robusto y flexible sobre el que aplicar las transformaciones y adaptaciones de estilos que necesitamos, transformaciones que deben ser capaces de alterar el estilo de habla o la emoción del modelo de habla de una persona, alternando mínimamente la personalidad de su voz, de tal manera que tras la transformación, su voz transformada no pueda ser confundida con la voz de los locutores que han servido de base para extrapolar el nuevo estilo. El modelo de síntesis de habla más apropiado hoy en día es el que nos proporciona el sistema Festival/HTS de que dispone el centro CSTR de la Universidad de Edimburgo, y con quien llevo colaborando en los últimos años. Objetivos: - Incorporar a un sistema de síntesis expresiva nuevos modelos de habla que estén más cerca del mecanismo de producción humano y sean intrínsecamente capaces de producir muchos tipos de voz o expresividad: se usarán las nuevas técnicas basadas en GIF (filtrado glotal inverso) y WLP (Predicción lineal ponderada) en las que investigamos CSTR y UPM en colaboración con la Universidad de Aalto dentro del proyecto europeo Simple4All. - Crear modelos con la capacidad incorporada para generar voz expresiva y que se puedan generalizar a través de los distintos locutores y estilos de habla o emociones por medio de técnicas de extrapolación.
Internacional
Si
Lugar
Edimburgo, Reino Unido.
Tipo
Miembros en el extranjero
Fecha inicio
01/05/2013
Fecha fin
31/07/2013
Esta actividad pertenece a memorias de investigación
Participantes
  • Autor: Juan Manuel Montero Martinez (UPM)
Grupos de investigación, Departamentos, Centros e Institutos de I+D+i relacionados
  • Creador: Grupo de Investigación: Grupo de Tecnología del Habla
  • Departamento: Ingeniería Electrónica
S2i 2022 Observatorio de investigación @ UPM con la colaboración del Consejo Social UPM
Cofinanciación del MINECO en el marco del Programa INNCIDE 2011 (OTR-2011-0236)
Cofinanciación del MINECO en el marco del Programa INNPACTO (IPT-020000-2010-22)