Memorias de investigación
Tesis:
Contributions to Speech Analytics based on Speech Recognition and Topic Identification
Año:2015

Áreas de investigación
  • Tecnología electrónica y de las comunicaciones,
  • Ingeniería eléctrica, electrónica y automática

Datos
Descripción
La principal contribución de esta Tesis es la propuesta y evaluación de un marco de contextualización motivado por el análisis temático y basado en la adaptación dinámica y no supervisada de modelos de lenguaje para el robustecimiento de un sistema automático de reconocimiento de voz. Para esto, se realiza la identificación de temáticas en el habla. Esto permite realizar una adaptación del modelo de lenguaje de acuerdo a las condiciones del contexto. El marco propuesto puede dividirse en dos sistemas principales: un sistema de identificación de temática y un sistema de adaptación dinámica de modelos de lenguaje. Esta Tesis puede describirse en detalle desde la perspectiva de las contribuciones particulares realizadas en cada uno de los campos que componen el marco propuesto: ** En lo referente al sistema de identificación de temática, nos hemos enfocado en aportar mejoras a las técnicas de pre-procesamiento de documentos, asimismo en contribuir a la definición de criterios más robustos para la selección de index-terms. - En este trabajo comparamos y evaluamos diferentes criterios para el preprocesamiento de los documentos, así como también distintas estrategias para la selección de los index-terms. Esto nos permite no sólo reducir el tamaño de la estructura de indexación, sino también mejorar el proceso de identificación de temática. - En este trabajo evaluamos y proponemos enfoques alternativos a los esquemas tradicionales de ponderado de términos (tales como tf-idf) que nos permitan mejorar la especificidad de los términos, así como también discriminar mejor las temáticas de los documentos. ** Respecto a la adaptación dinámica de modelos de lenguaje, hemos dividimos el proceso de contextualización en varios pasos. - Proponemos dos tipos de enfoques: un enfoque supervisado y un enfoque no supervisado en la generación de modelos de lenguaje. En el primero nos basamos en las etiquetas de temática que originalmente acompañan a los documentos del corpus que empleamos. Sin embargo, uno de los objetivos que se persigue en esta Tesis es evaluar si el uso de estas etiquetas para la generación de modelos es óptimo en términos del rendimiento del reconocedor. Por esta razón, nosotros proponemos un segundo enfoque, un enfoque no supervisado, en el cual el objetivo es agrupar, automáticamente, los documentos en clusters temáticos, basándonos en la similaridad semántica existente entre los documentos. - Desarrollamos diversas estrategias para generar un modelo de lenguaje dependiente del contexto. Este modelo es generado por medio de la interpolación lineal entre aquellos modelos de lenguaje basados en temática que estén relacionados con las temáticas más relevantes. - Finalmente, proponemos una metodología para la adaptación dinámica de un modelo de lenguaje general. Para esto, nos enfocamos en dos aspectos: la contextualización de los modelos de lenguaje empleados por el sistema y la incorporación de información semántica en el proceso de adaptación basado en temática. Para determinar los beneficios del marco de trabajo propuesto, llevamos a cabo la evaluación de cada uno de los sistemas principales. Esta evaluación es realizada sobre discursos en el dominio de la política usando la base de datos EPPS (European Parliamentary Plenary Sessions - Sesiones Plenarias del Parlamento Europeo) del proyecto europeo TC-STAR. Analizamos distintas métricas acerca del rendimiento de los sistemas y evaluamos las mejoras propuestas con respecto a los sistemas de referencia.
Internacional
No
ISBN
Tipo de Tesis
Doctoral
Calificación
Sobresaliente cum laude
Fecha
25/09/2015

Esta actividad pertenece a memorias de investigación

Participantes
  • Director: Javier Ferreiros Lopez UPM
  • Autor: Julián David Echeverry Correa Universidad Tecnológica de Pereira -Department of Electrical Engineering - Associate Professor

Grupos de investigación, Departamentos, Centros e Institutos de I+D+i relacionados
  • Creador: Grupo de Investigación: Grupo de Tecnología del Habla
  • Departamento: Ingeniería Electrónica