Memorias de investigación
Estancias o Sabáticos:
Estancia en Centro de Investigación EURECOM BIOT financiada con ayuda UPM
Año:2013

Áreas de investigación
  • Tecnología electrónica y de las comunicaciones,
  • Ingeniería eléctrica, electrónica y automática

Datos
Descripción
Duración de la estancia: 91 días. Durante la estancia se ha abordado el tema de la detección de hablantes solapados en la diarización de locutores, que es uno de los problemas principales de la diarización. Se comenzó estudiando los distintos procedimientos publicados de detección de hablantes solapados. Existen dos problemas a solucionar. La detección del segmento y su posterior categorización. Con la detección podemos descartar el segmento de habla solapada durante el entrenamiento de los modelos de locutor para evitar que se corrompan al utilizar datos de habla solapada. Posteriormente se debe asignar el segmento a los 2 o más locutores más probables. En los trabajos publicados generalmente se asigna a dos locutores. Esta asignación puede seguir dos vías. En la primera se asignan los dos locutores más cercanos en tiempo y en la segunda se compara un modelo conjunto de cada par de locutores con el segmento de habla solapada y se seleccionan los dos hablantes más probables. En la estancia se ha tratado de aplicar el estudio de los retardos entre los micrófonos con los que se llevó a cabo la grabación a la detección de los intervalos de habla solapada. Las bases de datos con las que normalmente trabajamos (NIST) no proporcionan información sobre el movimiento de los locutores en la sala, así como las características de la sala. Para simplificar el problema en estas fases iniciales se ha tratado de crear una grabación artificial, partiendo de voces limpias y simulando el efecto que una sala de unas dimensiones y características conocidas tendría en dichas voces. Creando un problema controlado se pretende poder analizar los cambios en los valores de retardo de una grabación en los momentos en los que dos locutores hablan a la vez. Para simular el efecto de la sala se ha utilizado una base de datos de la universidad de Aghen de respuestas al impulso de distintas salas y distintas distancias al micrófono desde el que se realiza la grabación. Los resultados preliminares con la grabación artificial resultaron en que el uso de la correlación cruzada entre las señales (medida intermedia que se usa para el cálculo de los retardos entre micrófonos) podía aportar información al respecto de cuándo hay habla solapada. También se aplicó una técnica de reducción de dimensionalidad, la t-sne, para visualizar la posible separación en 2 grupos de las tramas de habla solapada y de habla de un único locutor, viendose así más claramente la separabilidad basada en la correlación cruzada. La adaptación a los datos reales sin embargo no arrojó resultados positivos. Los datos parecen contener mucha más variabilidad, de modo que los valores de correlación cruzada para las tramas de habla solapada y de habla no solapada pasan a estar más mezclados haciendo imposible su separación por esta técnica. Analizando las diferencias entre los espectros en frecuencia de la grabación artificial y la real se vió que la grabación artificial no poseía componentes en frecuencias muy bajas, debido a la aplicación de la respuesta al impulso de la habitación que fue tomada con altavoces incapaces de reproducir dichas frecuencias. Al final de la estancia se decidió probar a modificar la señal real para acercarla a la señal artificial, ya que es en esta señal en la que es más fácil la separación de tramas de habla solapada de tramas de locutor único. Para ello pensamos en aplicar filtros digitales paso alto, eliminando las bajas frecuencias. En este momento y desde que la estancia terminó, hemos estado trabajando en esto y analizando los efectos en los valores de correlación cruzada calculados.
Internacional
Si
Lugar
EURECOM BIOT - Francia
Tipo
Miembros en el extranjero
Fecha inicio
01/10/2013
Fecha fin
31/12/2013

Esta actividad pertenece a memorias de investigación

Participantes
  • Autor: Beatriz Martinez Gonzalez UPM

Grupos de investigación, Departamentos, Centros e Institutos de I+D+i relacionados
  • Creador: Grupo de Investigación: Grupo de Tecnología del Habla
  • Departamento: Ingeniería Electrónica