Universidad Politécnica de Madrid

Big Data: el futuro a través de los datos

El procesamiento de datos masivos constituye hoy un recurso para crear innovación y una ventaja competitiva para todos los sectores, organizaciones, países y regiones.

27.07.15

Cada minuto, el mundo genera 1.700 billones de bytes de datos, lo que equivale a 360.000 DVD. Esta información procede de diversas fuentes, como personas, máquinas o sensores, y puede tratarse de datos climáticos, imágenes por satélite, fotos y vídeos digitales, registros de operaciones o señales de GPS.

Según un estudio realizado por la consultora IDC, de 2005 a 2020 se espera que el tamaño del universo digital se multiplique por 300, creciendo de 130 exabytes (un exabyte es un millón de gigabytes) a 40 mil, duplicándose anualmente la cantidad de datos digitales. Esto significa que se almacenarán 5.200 gigabytes por ser humano. Un nivel de complejidad alcanzado tanto en los datos como en su análisis, que impide que se puedan tratar con el software tradicional. Y es ahí donde surge el Big Data.

Los CEO de muchas compañías tecnológicas a nivel mundial se suman a la tendencia de considerar Big Data como el “nuevo petróleo de la economía digital”, debido a las inmensas oportunidades de negocio que se esperan con su aplicación masiva en diferentes áreas. Finanzas y seguros, Automoción, Energía, Salud, Telecomunicaciones, Logística, Educación y Administración Pública son algunos de los grandes sectores donde se prevé una gran generación de riqueza y de puestos de trabajo para quien consiga encabezar este campo a nivel mundial.

La Unión Europea tiene el propósito de liderar el desarrollo tanto científico como tecnológico de Big Data pues, a día de hoy, se reconoce abiertamente que ya no se puede competir con Estados Unidos y Asia en sectores tecnológicos clave, como el diseño y desarrollo de hardware. Sin embargo, se albergan grandes esperanzas de, esta vez sí, coger a tiempo el tren del nuevo reto tecnológico que acaba de emerger: las tecnologías basadas en Big Data.

Un sector en expansión

Según diversos estudios, el Big Data tiene el potencial de contribuir directamente con 206 billones de euros en la economía de la UE para el año 2020. Tal y como apunta demosEUROPA, “globalmente, en 2020, el Big Data y los datos públicamente accesibles (Open Data) pueden incrementar el PIB europeo en un 1,9%, o lo que es lo mismo, el equivalente a un año completo de crecimiento en la Unión Europea” [1] . Esto tendrá un impacto positivo en la creación de empleo y se espera generar 3,75 millones de puestos de trabajo en toda la UE en 2017 [2] .

Es por esto que la Comisión Europea está invirtiendo grandes esfuerzos en financiar iniciativas y proyectos de investigación e innovación en torno a este nuevo paradigma.
A finales de 2014, la UE firmó una cPPP (contractual Public Private Partnership) denominada Big Data Value junto con la asociación BDVA (Big Data Value Association), de la que la UPM es socio fundador. “Los objetivos de la asociación son impulsar la investigación, desarrollo e innovación en Big Data en Europa, así como fomentar una percepción positiva de esta nueva disciplina”, afirma Ernestina Menasalvas, investigadora de la UPM.

La finalidad de la UE es incentivar la investigación e innovación en este campo con el reto de que las empresas europeas lideren a nivel mundial este nuevo cambio de paradigma tecnológico. Las grandes compañías, así como las pequeñas y medianas empresas europeas, ya están observando el potencial de Big Data como un cambio disruptivo de los modelos de negocio y de mercado, y están comenzando a explotar sus oportunidades. Como reflejan algunos informes, la adopción de Big Data en Europa está creciendo [3]: el 30% de las compañías occidentales europeas adoptarán Big Data a finales de 2015 [4]. Para el 70% restante, es necesario contar con nuevas herramientas y recursos que les permitan adoptar una economía basada en los datos.

Pero, ¿qué es Big Data?

No existe una definición estándar, pero podemos decir que el término Big Data surge porque la diversidad, complejidad y volumen de los datos que se están generando, almacenando y analizando actualmente, requieren de nuevas arquitecturas, algoritmos y técnicas de análisis para gestionarlos y extraer el conocimiento que estos datos “esconden”. Esta complejidad se expresa en cuatro dimensiones, las denominadas “cuatro ‘v’ del Big Data”: el Volumen o cantidad de datos que se están generando; la Velocidad con la que los datos se generan, transmiten y analizan; la Variedad en los tipos de datos (texto, imagen, video, etc); y la Veracidad o Valor, es decir, el intento de eliminar o minimizar la incertidumbre que se tiene sobre los datos para no generar un conocimiento sesgado.

En cuanto a sus aplicaciones, existe una infinidad de campos que pueden extraer valor de los datos a partir de Big Data. En sectores como el de la salud, se están promoviendo aplicaciones que dependen del cambio demográfico y del bienestar de las personas, muchas de ellas basadas en el análisis de las historias clínicas de los pacientes o en los dispositivos wearables o “ponibles” que están adquiriendo un gran protagonismo en los últimos años. Además, se estima que para 2015 el hospital medio tendrá dos tercios de un petabyte de datos de pacientes, el 80% de los cuales serán datos no estructurados, de los que una gran cantidad se corresponderán con datos de imagen, como CT y Rayos-X.

Otro ejemplo es el mantenimiento predictivo de vehículos y maquinaria en general. A través de la instrumentación de la maquinaria, se consigue generar datos en tiempo real sobre sus métricas: es lo que se conoce como M2M (machine- to-machine). Estos datos se analizan en tiempo real para detectar problemas antes de que éstos generen una avería. De esta forma, se puede iniciar el mantenimiento de los vehículos o maquinaria antes de que se averíen, dejen de prestar servicio y originen problemas más caros de resolver.

En el área del transporte, el uso de Big Data busca la eficiencia energética y la creación de medios de transporte que sean más inteligentes, reduciendo los niveles de contaminación mediante la utilización de otras tecnologías emergentes. Para ello, se extrae el conocimiento contenido en los datos generados por una gran red de sensores.

Big Data, redes y Smart Grid

En el campo de las telecomunicaciones, las técnicas de Big Data nos hacen pensar en componentes de deep-analytics que permitan actuar de forma automática y proactiva sobrelos subsistemas que controlan el tráfico que atraviesa una red. Estos componentes podrían analizar el tráfico dentro de la red en tiempo real, con objeto de detectar intrusiones y actuar de forma proactiva sobre los elementos de la red.

En este marco, el equipo de Alberto Mozo, investigador de la UPM, está dirigiendo el proyecto FP7 ONTIC (Online Network Traffic Characterization), financiado por la Comisión Europea. Su objetivo es proponer, investigar, diseñar e implementar nuevos mecanismos y técnicas de aprendizaje automático y minería de datos que resuelvan los problemas de caracterización e identificación del tráfico de red de un operador de telecomunicaciones, en un escenario actual de dimensiones Big Data. “Este problema debe ser resuelto tanto desde una perspectiva científica como tecnológica, ya que en la actualidad no existen algoritmos que puedan manejar con precisión los ingentes volúmenes de datos que cruzan las redes de los operadores de telecomunicaciones”, afirma Mozo. Teniendo en cuenta que se espera que en el año 2020 tengamos alrededor de 50.000 millones de dispositivos conectados a Internet, este problema ya se considera como Big Data, tanto por el volumen como por la velocidad a la que se genera el tráfico de red, y, por tanto, “debe ser abordado de inmediato y de una forma radicalmente diferente a como se ha tratado hasta el momento”, añade.

Otras de las áreas de aplicación de Big Data es la denominada Smart-grid. Esta iniciativa consiste en que los proveedores de energía eléctrica doten a su infraestructura de Smart-meters o contadores inteligentes. Estos contadores proporcionarán métricas detalladas del consumo y podrán detectar en tiempo real qué tipo de electrodoméstico o aparato eléctrico se ha encendido en cada hogar o negocio. Esto se hace analizando la firma de cada aparato eléctrico mediante la forma de la curva de consumo que exhibe al encenderse o apagarse. Así, mediante tecnologías de Big Data, las compañías eléctricas podrán hacer estimaciones muy precisas del consumo a corto plazo y adaptar la producción de energía, pudiéndose ahorrar billones de euros a nivel mundial.

Y es que, gracias a Big Data se espera poder mejorar en torno al 1% la eficiencia de los procesos en todas las áreas industriales y de negocio, lo que supondrá un ahorro de centenares de billones de euros en una década (ver tabla para observar la cuantificación de diferentes beneficios en diversos sectores). También se podrán ofrecer servicios personalizados a los ciudadanos de acuerdo a sus gustos y necesidades.

Junto a las múltiples oportunidades que ofrece, Big Data plantea problemas aún no resueltos: las series de datos actuales son tan inmensas y complejas de tratar que requieren ideas, herramientas e infraestructuras nuevas.

También necesitan el marco jurídico, los sistemas y las soluciones técnicas adecuados para garantizar la intimidad y la seguridad. La protección de datos en este campo es crítica, más aún con el desarrollo de aplicaciones en la nube y los procesamientos masivos, especialmente, en el caso de datos sensibles, como es la salud. “La securización de los datos y la anonimización de los mismos en los sectores en los que sea posible ha de ser una prioridad para garantizar las normas que la sociedad ha impuesto. Deben desarrollarse nuevos estándares de seguridad y algoritmos de análisis de datos que garanticen la protección y la privacidad de los mismos y de los hallazgos que se puedan encontrar en aquellos casos que sea necesario”, afirma Ernestina Menasalvas, investigadora de la UPM.

En cuanto al aspecto técnico, nos encontramos con retos en múltiples dimensiones. Por un lado, se necesitan herramientas, modelos y arquitecturas que permitan el acceso, agregación y uso de los datos para transformarlos en información. Los vídeos, imágenes o textos en lenguaje natural, entre otros, deben ser preprocesados y enriquecidos por una anotación semántica que, además, debe solventar los problemas de la diversidad lingüística.

En este sentido, el modelo relacional y el lenguaje de consulta SQL utilizados actualmente son capaces de resolver una gran parte de los problemas de gestión de datos, pero no representan la mejor solución para otro tipo de cuestiones. Esto ha dado lugar a un movimiento tecnológico conocido como NoSQL, en el que se han propuesto nuevos gestores de datos que adoptan otros modelos de datos distintos al relacional, tales como los orientados a documentos, clave-valor y orientados a grafos. “Hoy, los gestores de datos NoSQL suponen una gran parte de la tarta del mercado
de BigData”, afirma Marta Patiño.

Esta profesora coordina el proyecto CoherentPaaS, en el que se abordan las barreras que se encuentran las empresas al emplear múltiples gestores de datos, tanto bases de datos SQL como gestores de datos NoSQL. En este trabajo, los investigadores han desarrollado una máquina de consultas que integra los lenguajes de los dos gestores. De esta forma, se pueden realizar las consultas entre distintos gestores de datos de forma declarativa con un solo lenguaje, en vez de hacerlas programáticamente como se hace hasta ahora. Los expertos han conseguido combinar el “poder y flexibilidad de cada gestor NoSQL con la facilidad de uso de SQL, reduciendo dramáticamente el coste de desarrollo de consultas en entornos con persistencia políglota”, explica la profesora de la UPM.

También deben desarrollarse métodos para mejorar la calidad de los datos, ofreciendo una mayor fiabilidad y legitimidad de las aplicaciones que utilicen Big Data. Otro ámbito de desarrollo es Data-as-a-service, es decir, cómo se empaquetan y provisionan los datos, las aplicaciones y la analítica necesaria para interpretarlos y procesarlos en un único paquete que puede ser (parcialmente) ofertado
al cliente. Como ejemplo, el proyecto MixedEmotions, que tiene a Carlos Ángel Iglesias como investigador principal, persigue desarrollar aplicaciones innovadoras capaces de analizar el perfil y la conducta de los usuarios a través de canales mixtos, como fuentes textuales, señales audiovisuales, contenido generado en redes sociales y datos estructurados. Con este fin, el proyecto ofrecerá una plataforma analítica multimodal de Big Data con aplicación comercial para gestión de reputación, análisis de las operaciones de un centro de llamadas y televisión social.

Lenguajes integrados y tiempo real

Por otro lado, Big Data plantea el objetivo de procesar de forma integrada los datos dinámicos y estáticos, un reto para el que es necesario desarrollar arquitecturas de procesamiento con extensibilidad extrema, capaces de integrar datos almacenados y datos en movimiento y que soporten la aplicación de técnicas de analytics sobre ambos tipos de datos. Para el investigador Alberto Mozo, “el análisis de opinión, la validación de contenidos, los sistemas de Business Analytics y la predicción y prescripción de eventos de alto nivel, son los campos principales donde el Big Data tiene mucho camino que recorrer en lo que se refiere al desarrollo de las técnicas de analytics”.

En esto se trabaja desde el proyecto RETHINK BIG, en el que también participa la UPM, centrado en conseguir una mayor integración entre el software y hardware que se use para la gestión y análisis de los datos, así como con los sistemas de comunicación. Profesores del grupo MIDAS lideran el trabajo de diseminación de esta acción coordinada, que comenzó en marzo de 2014. Se trata de reunir a las organizaciones clave en los sectores de hardware, redes y arquitectura de sistemas con los principales productores y consumidores de grandes volúmenes de datos, para identificar los elementos que inciden en maximizar la competitividad europea en el procesamiento y análisis de grandes datos sobre los próximos diez años.

Otro proyecto liderado por la UPM, LeanBigData, aborda el reto del análisis de los datos en tiempo real, esto es, el análisis de los datos sobre los datos operacionales conforme se van produciendo. Esto requiere aunar las capacidades de dos tipos de gestores de datos. Por un lado, los datos operacionales se almacenan en bases de datos transaccionales, también conocidas como bases de datos OLTP (On Line Transactional Processing). Estas bases garantizan la consistencia de los datos en presencia de fallos y accesos concurrentes, por lo que son un requisito para las aplicaciones que actualizan los datos operacionales (por ejemplo, transferencias bancarias, registro de llamadas telefónicas en operadores de telefonía, etc). Por otro lado, las consultas analíticas, que son muy pesadas, se realizan en bases de datos conocidas como data warehouses o bases de datos OLAP (On Line Analytical Processing).

El valor comercial de la tecnología desarrollada ha llevado a los investigadores a crear LeanXcale, una empresa de base tecnológica. “Gracias al apoyo del CAIT de la UPM y su programa de emprendimiento ActúaUPM, en el que hemos participado, hemos creado esta spin off. Incluso hemos ganado uno de los premios en la categoría de Idea Challenge, la competición de startups que ICT Labs organiza a nivel europeo”, explica Marta Patiño.

Paralelamente, en la UPM se llevan a cabo otros proyectos relacionados con Big Data, como INSIGHT (Innovative Policy Modelling and Governance Tools for Sustainable Post- Crisis Urban Development), coordinado por los profesores Asunción Santamaria y Claudio Feijóo; READY4SmartCities, dirigido por Asunción Gómez Pérez, o SemData (Semantic Data Management), con Óscar Corcho como investigador principal.

Un futuro profesional: formación en Big Data

Son muchos los sectores que se pueden beneficiar de los datos mediante el uso de técnicas de Big Data. Instituciones tanto públicas como privadas están cada vez más centradas en el apoyo a la investigación e innovación de proyectos relacionados con esta disciplina, y algunas incluso ofertan títulos de ingeniería de datos para cubrir la demanda de profesionales en este sector.

Si consideramos al Big Data como el “nuevo petróleo” de la era digital, es necesario formar adecuadamente a los ingenieros y científicos capaces de extraer y procesar ese conocimiento. Como ejemplo, sólo en los últimos 5 años la demanda de profesionales de BigData en España se ha multiplicado por diez, y el 77% de los puestos son difíciles de ocupar.

Recientemente, se ha observado que muchos de los ingenieros y científicos de datos europeos están siendo contratados de forma masiva por empresas tecnológicas de Estados Unidos. “Este efecto podría llegar a provocar en pocos años una desaparición del know-how especializado en el campo del Big Data en Europa y, especialmente, en todo lo que tiene que ver con la ciencia y la ingeniería de datos”, señala Alberto Mozo.

Ante esta situación, la Comisión Europea está impulsando la creación de enseñanzas y especialidades en estos nuevos perfiles en las universidades y centros de formación europeos. La UPM ya ha puesto en marcha un máster europeo con doble titulación sobre Data Science dentro del marco de EIT Digital, que arranca el próximo mes de septiembre con un plan de estudios que abarca tanto la formación técnica como la educación en el emprendimiento y la innovación. El programa formará a generaciones de emprendedores en esta área emergente.

La realidad es que el volumen de datos está creciendo rápidamente. Cada vez tenemos más dispositivos que generan datos y que se conectan entre sí mediante aplicaciones en la nube. En los próximos años, se prevé que la interconexión entre múltiples dispositivos presentes en la vida cotidiana revierta en una mejora de la sociedad y de la calidad de vida de las personas, en ámbitos como la salud, la alimentación o el ocio. Sin embargo, para conseguirlo existen diferentes retos relacionados con Big Data que se deben alcanzar, y los investigadores de la UPM podrán aportar algunas de las respuestas.

Fuentes

[1]“Big and open data in Europe - A growth engine or a missed opportunity?”, Sonia Buchholtz, MaciejBukowski, AleksanderŚniegocki (Warsaw Institute for Economic Studies), report commissioned by demosEUROPA, 2014.

[2] Big Data Value calculation based on http://www.eskillslandscape.eu/ictworkforce- in-europe/ (also re footnote ‘7’).

[3] “The European Data Market”, Gabriella Catteneo, IDC, presentation given at the NESSI summit in Brussels on 27 May 2014, available online at: http://www.nessi-europe.eu/?Page=nessi_summit_2014.

[4] IDC European Vertical Markets Survey, October 2013

Artículo elaborado con la colaboración de Ernestina Menasalvas, Alberto Mozo y Marta Patiño. Publicado originariamente en el número 31 de la 'Revista UPM'.