Memorias de investigación
Tesis:
Diseño y Evaluación de Técnicas de Reconocimiento de Idioma mediante la Fusión de Información Fonotáctica y Acústica
Año:2018

Áreas de investigación
  • Tecnología electrónica y de las comunicaciones,
  • Ingeniería eléctrica, electrónica y automática

Datos
Descripción
La aplicación de técnicas fonotácticas en los sistemas de reconocimiento de idioma ha venido siendo un ámbito de continuo estudio ya que su correcta utilización deriva en importantes mejoras en el rendimiento de dichos sistemas. La forma en la que se desarrolla un idioma así como el conjunto de características fonéticas que se generan con el habla son elementos claves en las tareas de identificación de idioma (LID). La eficiencia con la que se logran capturar dichas características fonéticas es un factor determinante para la obtención de un reconocedor de calidad. Aunque los sistemas actuales han alcanzado una tasa de acierto muy razonable, continúan teniendo problemas, como por ejemplo la cantidad de recursos informáticos requeridos para el procesamiento de la información y por otro lado la cantidad de información de entrenamiento necesaria para que los sistemas automáticos puedan incorporar adecuadamente información característica de los idiomas a reconocer. Las redes neuronales profundas y particularmente las recurrentes, han resultado eficientes para modelar las características fonéticas de los idiomas y por tanto, se están utilizando con este fin para varios tipos de tareas en el reconocimiento de habla y en tareas de LID. Los modelos de lenguaje se generan a dos niveles, uno a nivel léxico y otro a nivel fonético. En esta tesis se ha decidido utilizar un sistema fonotáctico que es capaz de aprovechar una mayor información de contexto y para ello, se han utilizado unidades fonéticas que buscan incorporar las características fonotácticas de idioma, además de incorporar más información de contexto de la que ofrece un fonema. En esta tesis se explora el uso de estas unidades fonéticas ngramas-fonéticos en tareas LID, identificando valores óptimos de configuración y respuestas mediante las diferentes técnicas propuestas, todo ello en el contexto de la creación de modelos de lenguaje basados en redes neuronales recurrentes. Por otra parte, en el mismo ámbito fonotáctico, se introduce la idea de utilizar la representación vectorial de ngramas-fonéticos en tareas LID, dejando de lado el concepto de modelo de lenguaje que se basa en información del pasado para predecir nueva información y dando paso a la generación de modelos basados en el contexto y en los ngrama-fonéticos objetivo. También se han estudiado en esta tesis los sistemas fonotácticos para tareas LID basados en estructuras de i-Vectores. El uso de información discriminativa y de coeficientes PLLR han permitido explorar nuevas alternativas en la tarea LID. En base a ello, se han estudiado alternativas para ampliar el contexto que tienen en cuenta dichos coeficientes para mejorar su rendimiento. Todos los estudios propuestos han sido realizados sobre la base de datos KALAKA-3 utilizada en la evaluación ALBAYZIN-LRE2012 en razón del equilibrio encontrado entre su tamaño y la dificultad de la tarea definida en cuanto a su tiempo de ejecución. http://oa.upm.es/52506/
Internacional
No
ISBN
Tipo de Tesis
Doctoral
Calificación
Sobresaliente cum laude
Fecha
01/10/2018

Esta actividad pertenece a memorias de investigación

Participantes

Grupos de investigación, Departamentos, Centros e Institutos de I+D+i relacionados
  • Creador: Grupo de Investigación: Grupo de Tecnología del Habla
  • Centro o Instituto I+D+i: Centro de I+d+i en Procesado de la Información y Telecomunicaciones
  • Departamento: Ingeniería Electrónica