Observatorio de I+D+i UPM

Memorias de investigación
Thesis:
Un modelo de integración y preprocesamiento de información distribuida basado en ontologías
Year:2008
Research Areas
  • Artificial intelligence
Information
Abstract
El incremento producido en la cantidad de datos disponibles en todas las áreas de la sociedad no ha implicado un aumento proporcional del conocimiento disponible. Para obtener este conocimiento es necesario avanzar en el proceso de descubrimiento de conocimiento en bases de datos (en inglés, KDD). A pesar de que la relevancia de las fases de preparación de los datos en el proceso de descubrimiento de conocimiento a partir de los datos ha sido ampliamente reconocida en la literatura científica, se han llevado a cabo relativamente pocos esfuerzos científicos en este campo, comparados con las investigaciones centradas en el desarrollo de nuevos algoritmos de minería de datos. La investigación presentada propone el uso de ontologías de dominio en las fases previas a la minería de datos dentro de un proceso KDD. Otros trabajos previos propios, en integración de esquemas de fuentes biom?édicas, sugerían la necesidad de abordar el trabajo aquí presentado. En estos trabajos previos, se creaban esquemas virtuales, basados en ontologías, enlazados a fuentes de datos físicas, que se unificaban para integrar la información de los repositorios físicos originales. La existencia de numerosos datos que debían ser preprocesados para evitar inconsistencias y errores en los resultados reforzaba esta necesidad. En la investigación planteada, la integración de instancias se afronta junto con el preprocesamiento de datos debido a su similitud funcional, utilizando una ontología como estructura de soporte formal. Una vez que la información correspondiente a las inconsistencias detectadas en los datos es almacenada en dicha ontologías proceso supervisado por un expertos los datos pueden ser transformados autom?¢ticamente cuando son requeridos por el usuario. Para validar experimentalmente el modelo creado, se han ejecutado baterías de consultas en diversas fuentes de datos heterogéneos. El análisis estadístico de los resultados muestra datos correctamente integrados y preprocesados. La posterior aplicación de algoritmos de minería sobre los resultados obtenidos ofrece también mejores resultados finales que las fuentes de datos por separado o utilizando métodos de X integración tradicionales en los que no se transforman las instancias. Una ventaja adicional de este enfoque es poder acceder de forma homogénea a información de varias fuentes heterogéneas unificadas y semánticamente coherentes. Dentro de la creación de un modelo global de KDD basado en ontologías, se propone un método de tratamiento de inconsistencias de instancias, también basado en ontologías. Tradicionalmente los métodos disponibles habían abordado sólo el tratamiento de inconsistencias de esquemas. El modelo propuesto se enmarca en el área de la inform?¢tica¡ªintegración de bases de datos y KDD, y en la biomedicina como dominio de aplicación. Este trabajo ha sido desarrollado en el marco de varios proyectos europeos y ha generado ya diversas publicaciones en revistas científicas y congresos internacionales.
International
No
Type
Doctoral
Mark Rating
Sobresaliente cum laude
Date
Participants
  • Autor: David Perez Del Rey (UPM)
  • Director: Victor Manuel Maojo Garcia (UPM)
Research Group, Departaments and Institutes related
  • Creador: Grupo de Investigación: Grupo de Informática Biomédica (LIA)
  • Departamento: Inteligencia Artificial
  • Centro o Instituto I+D+i: Centro de tecnología Biomédica CTB
S2i 2020 Observatorio de investigación @ UPM con la colaboración del Consejo Social UPM
Cofinanciación del MINECO en el marco del Programa INNCIDE 2011 (OTR-2011-0236)
Cofinanciación del MINECO en el marco del Programa INNPACTO (IPT-020000-2010-22)