Observatorio de I+D+i UPM

| Otras actividades
HOME

Proyectos Internacionales Art�culos Patentes UPM Software UPM Empresas UPM Otras actividades Memorias de investigaci�n

Memorias de investigación

Tesis:

Dise�o y Evaluaci�n de T�cnicas de Reconocimiento de Idioma mediante la Fusi�n de Informaci�n Fonot�ctica y Ac�stica

A�o:2018

�reas de investigaci�n

Tecnolog�a electr�nica y de las comunicaciones,
Ingenier�a el�ctrica, electr�nica y autom�tica

Datos

Descripci�n
La aplicaci�n de t�cnicas fonot�cticas en los sistemas de reconocimiento de idioma ha venido siendo un �mbito de continuo estudio ya que su correcta utilizaci�n deriva en importantes mejoras en el rendimiento de dichos sistemas. La forma en la que se desarrolla un idioma as� como el conjunto de caracter�sticas fon�ticas que se generan con el habla son elementos claves en las tareas de identificaci�n de idioma (LID). La eficiencia con la que se logran capturar dichas caracter�sticas fon�ticas es un factor determinante para la obtenci�n de un reconocedor de calidad. Aunque los sistemas actuales han alcanzado una tasa de acierto muy razonable, contin�an teniendo problemas, como por ejemplo la cantidad de recursos inform�ticos requeridos para el procesamiento de la informaci�n y por otro lado la cantidad de informaci�n de entrenamiento necesaria para que los sistemas autom�ticos puedan incorporar adecuadamente informaci�n caracter�stica de los idiomas a reconocer. Las redes neuronales profundas y particularmente las recurrentes, han resultado eficientes para modelar las caracter�sticas fon�ticas de los idiomas y por tanto, se est�n utilizando con este fin para varios tipos de tareas en el reconocimiento de habla y en tareas de LID. Los modelos de lenguaje se generan a dos niveles, uno a nivel l�xico y otro a nivel fon�tico. En esta tesis se ha decidido utilizar un sistema fonot�ctico que es capaz de aprovechar una mayor informaci�n de contexto y para ello, se han utilizado unidades fon�ticas que buscan incorporar las caracter�sticas fonot�cticas de idioma, adem�s de incorporar m�s informaci�n de contexto de la que ofrece un fonema. En esta tesis se explora el uso de estas unidades fon�ticas ngramas-fon�ticos en tareas LID, identificando valores �ptimos de configuraci�n y respuestas mediante las diferentes t�cnicas propuestas, todo ello en el contexto de la creaci�n de modelos de lenguaje basados en redes neuronales recurrentes. Por otra parte, en el mismo �mbito fonot�ctico, se introduce la idea de utilizar la representaci�n vectorial de ngramas-fon�ticos en tareas LID, dejando de lado el concepto de modelo de lenguaje que se basa en informaci�n del pasado para predecir nueva informaci�n y dando paso a la generaci�n de modelos basados en el contexto y en los ngrama-fon�ticos objetivo. Tambi�n se han estudiado en esta tesis los sistemas fonot�cticos para tareas LID basados en estructuras de i-Vectores. El uso de informaci�n discriminativa y de coeficientes PLLR han permitido explorar nuevas alternativas en la tarea LID. En base a ello, se han estudiado alternativas para ampliar el contexto que tienen en cuenta dichos coeficientes para mejorar su rendimiento. Todos los estudios propuestos han sido realizados sobre la base de datos KALAKA-3 utilizada en la evaluaci�n ALBAYZIN-LRE2012 en raz�n del equilibrio encontrado entre su tama�o y la dificultad de la tarea definida en cuanto a su tiempo de ejecuci�n. http://oa.upm.es/52506/
Internacional	No
ISBN
Tipo de Tesis	Doctoral
Calificaci�n	Sobresaliente cum laude
Fecha	01/10/2018

Esta actividad pertenece a memorias de investigaci�n

Participantes

Autor: Christian Ra�l Salamea Palacios UPM
Director: Ricardo de Cordoba Herralde UPM
Director: Luis Fernando D'Haro Enriquez UPM

Grupos de investigaci�n, Departamentos, Centros e Institutos de I+D+i relacionados

Creador: Grupo de Investigaci�n: Grupo de Tecnolog�a del Habla
Centro o Instituto I+D+i: Centro de I+d+i en Procesado de la Informaci�n y Telecomunicaciones
Departamento: Ingenier�a Electr�nica