Observatorio de I+D+i UPM

Memorias de investigación
Thesis:
MODELO PARA EL TRATAMIENTO DE CONJUNTOS COMPLEJOS CON DATOS AUSENTES DE VARIABLES CATEGÓRICAS EN UN CONTEXTO DE E-DEMOCRACIA. APLICACIÓN A ENCUESTAS DE OPINIÓN
Year:2012
Research Areas
  • Dataprocessing
Information
Abstract
La falta de información es un escenario más que habitual en la utilización de conjuntos de datos. En las aplicaciones del mundo real existen múltiples causas ? errores o fallos de los sensores cuando se trabaja con equipos automáticos, desconocimiento o falta de interés por parte de los responsables de introducir la información, negativas por parte de los informantes a responder a preguntas sobre temas comprometidos en encuestas ? ? que pueden originarlo. Como consecuencia de ello, el procesamiento de los valores ausentes es, en la práctica, uno de los trabajos que más tiempo consumen en los proyectos de minería de datos y aprendizaje automático y se estima que alrededor del 60% de los esfuerzos se destinan al mismo. Aunque la ausencia puede producirse en cualquier tipo de datos, sean éstos numéricos o categóricos, nos vamos a centrar en los últimos a causa de algunas peculiaridades que merece la pena estudiar. Y hablaremos indistintamentede ausencia de información, valores ausentes, falta de respuesta, datos parcialmenteobservados o falta de datos, pues en cualquiera de estas formas aparece citado elproblema. Las técnicas para afrontarlo se vienen desarrollando ya desde hace tiempo y existen numerosas referencias en la literatura, sobre todo acerca de la falta de respuesta en encuestas. Sin embargo, en el ámbito del aprendizaje automático es en los últimos años cuando se ha convertido en un área de investigación dinámica, con frecuentes aportaciones. Los dos puntos de vista, el estadístico y el del aprendizaje automático, consideran el problema en formas bien diferentes y tienen distintos objetivos, lo que origina, a su vez, discrepancias en la clasificación de las técnicas y en los criterios para su evaluación. Por un lado, el enfoque estadístico paramétrico tradicional considera el conjunto de datos como una muestra, resultado de la extracción aleatoria de una población con una distribución probabilística. Bajo este supuesto, el objetivo es obtener algunos de los parámetros que caracterizan esa distribución ? la media, la moda, la correlación entre variables, etc. ? calculándose los correspondientes estimadores como funciones de los datos de la muestra. La ausencia de datos es, aquí, un problema de estimación que se afronta desde diferentes perspectivas. Por su parte, en el ámbito de los procedimientos de aprendizaje automático existen múltiples técnicas que pueden utilizarse para tratar los datos ausentes mediante su sustitución por valores obtenidos a partir de los datos observados: redes neuronales, árboles de decisión, etc. Cuando los datos que faltan son categóricos, se pueden utilizar técnicas específicas como los procedimientos de clasificación: las categorías a asignar coinciden con los distintos valores posibles del atributo que tiene falta de información. Pueden utilizarse métodos supervisados y no supervisados. En el primer caso, cuando existe más de un atributo con falta de datos, el aprendizaje se realiza sucesiva y separadamente para cada uno, lo que significa que la tarea ha de repetirse tantas veces como atributos con valores ausentes hay en el conjunto de datos. El inicio de los trabajos de esta tesis ha estado principalmente motivado en la necesidad de mejorar los resultados obtenidos al tratar de resolver problemas de falta de información de variables categóricas en sondeos de opinión utilizando los procedimientos que la literatura considera como el estado del arte en ese ámbito.
International
No
Type
Doctoral
Mark Rating
Sobresaliente cum laude
Date
20/12/2012
Participants
  • Director: Jesus Cardeñosa Lera (UPM)
Research Group, Departaments and Institutes related
  • Creador: Grupo de Investigación: Grupo de Validación y Aplicaciones Industriales
  • Departamento: Inteligencia Artificial
S2i 2020 Observatorio de investigación @ UPM con la colaboración del Consejo Social UPM
Cofinanciación del MINECO en el marco del Programa INNCIDE 2011 (OTR-2011-0236)
Cofinanciación del MINECO en el marco del Programa INNPACTO (IPT-020000-2010-22)