Un 'Gemelo Digital' de Red para entrenar a la IA en la detección de ciberamenazas

Investigadores de la UPM y Telefónica se han unido para crear esta nueva herramienta basada en IA que ayudará a distinguir en tiempo real el tráfico legítimo del malicioso y puede marcar un cambio de paradigma para las operadoras de red.

24.11.25

En el intrincado entramado de las telecomunicaciones, las redes funcionan como gigantescas autopistas digitales en las que circulan miles de millones de datos provenientes de un número incalculable de conexiones. Una gran cantidad de este tráfico destaca por su elevado consumo de ancho de banda: son los denominados flujos pesados o heavy hitters. Tras ellos se ocultan actividades cotidianas y legítimas como el maratón de series en Netflix, la reproducción de vídeos en alta definición en YouTube o la sincronización de archivos con servicios en la nube como Google Drive.

No obstante, esta capacidad para mover ingentes volúmenes de datos también presenta una vertiente peligrosa: los ataques volumétricos maliciosos suelen manifestarse con volúmenes significativos de tráfico, que pueden clasificarse de forma errónea como heavy hitters. Estos ciberataques buscan deliberadamente colapsar un servicio de internet y saturar un segmento de la red, con el objetivo de dejar sin conexión a miles –o incluso millones– de usuarios y paralizar servicios esenciales. Para luchar contra estos ataques es fundamental diferenciar el tráfico de datos que realmente es legítimo de aquel que resulta una amenaza, algo que requiere una elevada capacidad de análisis.

Topología del gemelo digital de red para la emulación de clientes y servidores normales y heavy hitters.

Para facilitar esta labor, un equipo de investigadores del Grupo de Modelización Matemática y Biocomputación de la UPM y Telefónica Innovación Digital se han unido para crear un “gemelo digital” que ayude a entrenar a la Inteligencia Artificial para que sea capaz de hacer esa función, es decir, para identificar los datos y diferenciar los maliciosos de aquellos que no lo son.

Un Gemelo Digital de Red es una réplica virtual y dinámica de la red física. En configuraciones avanzadas los gemelos digitales de red se alimentan en tiempo real con mediciones de la red real y, a su vez, permiten probar ajustes de configuración en un bucle continuo, sin afectar al servicio activo”, explica Alberto Mozo, catedrático de Universidad Politécncia de Madrid, director del grupo de investigación MMB e investigador principal del proyecto Horizonte Europa ACROSS dentro del cual se ha desarrollado este trabajo.

Dentro de ese entorno controlado, los investigadores generan tráfico sintético que replica tanto el comportamiento cotidiano de los usuarios como los patrones de diversos ataques. Este tráfico es etiquetado automáticamente, indicando su naturaleza (benigna o maliciosa) y con todo ese conjunto de datos "etiquetados" se entrena un algoritmo de aprendizaje supervisado, una rama de la Inteligencia Artificial que aprende identificando patrones en ejemplos previamente categorizados.  “El objetivo final es enseñar al sistema a reconocer con precisión la intención detrás de cada flujo pesado, convirtiéndolo en un eficaz guardián de las autopistas digitales”, añade Amit Karamchandani Batra, otro de los investigadores UPM y primer autor de este trabajo.

Educar a la IA

El trabajo desarrollado por la UPM y Telefónica se centró en cuatro grandes metas diseñadas para revolucionar la forma en que se protege y gestiona el tráfico de internet. La primera: crear, mediante el Gemelo Digital de Red, escenarios de red realistas que permitan recopilar un conjunto de datos sintéticos amplio, diverso y realista. Esto permite a los investigadores evitar el empleo de datos procedentes de usuarios reales, protegiendo la privacidad de la red.

Arquitectura para la monitorización en tiempo real de la red y la optimización proactiva del tráfico.

La segunda meta consiste en utilizar estos datos sintéticos para educar a la IA en el reconocimiento de cada tipo de flujo. Para ello, se muestran miles de ejemplos de tráfico de red, diciéndole en cada caso a la IA: "esto es tráfico normal", "esto es un usuario descargando un archivo grande, es legítimo", o "¡cuidado, esto es un ataque!".

Al analizar todos estos ejemplos ya clasificados (o "etiquetados"), la IA aprende a identificar las "pistas" o patrones característicos de cada tipo de flujo, sin que se inspeccione el contenido de los datos, algo fundamental para proteger la privacidad de los usuarios”, explica Luis de la Cal, también investigador de la UPM y coautor de este trabajo. “El objetivo es que, una vez entrenada, pueda decidir por sí misma y en cuestión de milisegundos si un nuevo flujo de datos que llega a la red es normal, un heavy hitter legítimo (como una descarga de un archivo pesado o streaming de vídeo de alta calidad), o si, por el contrario, es parte de un ciberataque”, añade.

La tercera meta buscaba cerrar el círculo entre el mundo virtual y el real, permitiendo que el gemelo digital y la red física puedan intercambiar datos en vivo. Esta comunicación bidireccional permite a las operadoras probar, de forma totalmente segura y controlada, nuevas políticas para mejorar la calidad del servicio o estrategias para mitigar ataques, sin poner en riesgo la conexión o la información de los clientes. Además, actualizando el gemelo virtual de la red con datos recogidos en tiempo real de su contraparte real, es posible refinar y mejorar continuamente el modelo de Inteligencia Artificial para que se mantenga siempre calibrado y eficaz ante las últimas amenazas e intentos de evasión por parte de los ciberdelincuentes.

La cuarta meta de los investigadores supone un beneficio para toda la comunidad científica ya que implica liberar el código fuente del sistema y el conjunto de datos generados, de manera que cualquiera pueda acceder a ellos.

Prueba superada

Más allá de las pruebas de laboratorio, el trabajo desarrollado por los investigadores mostró resultados sobresalientes. “La inteligencia artificial, entrenada con estos datos, aprendió a distinguir con una precisión asombrosa y a una velocidad vertiginosa entre el tráfico normal, los "heavy hitters" generados por actividades legítimas y los generados por ataques DDoS”, explica Mozo. El profesor añade que “el modelo de IA desarrollado no solo brilló en las pruebas de laboratorio: cuando lo enfrentamos a datos de tráfico completamente nuevos y desconocidos, incluyendo conjuntos de datos públicos que se usan para poner a prueba sistemas de detección de intrusos, mantuvo un rendimiento excelente”, concluye.

Este trabajo ha recibido financiación de la Comisión Europea a través del proyecto  ACROSS en el marco de HORIZON-JU-SNS-2022 con el Grant Agreement número 101097122.

Referencia: A. Karamchandani, J. Nunez, L. de-la-Cal, Y. Moreno, A. Mozo y A. Pastor, “On the Applicability of Network Digital Twins in Generating Synthetic Data for Heavy Hitter Discrimination,” IEEE Communications Magazine, pp. 2–8, 2025, DOI: 10.1109/MCOM.003.2400648.