ReNO: Resilient Integration of Machine Learning for Enhanced Network Operation

(ReNO: Resiliente Integration von maschinellem Lernen für den verbesserten Netzbetrieb)

Team

Internet Network Architectures and Management, TU Berlin

Stefan Schmid
Stefan Schmid is a Professor at the Technical University of Berlin, Germany. MSc and PhD at ETH Zurich, Postdoc at TU Munich and University of Paderborn, Senior Research Scientist at T-Labs in Berlin, Associate Professor at Aalborg University, Denmark, Full Professor at the University of Vienna, Austria, and Sabbathical as a Fellow at the Israel Institute for Advanced Studies (IIAS), Israel. Stefan Schmid received the IEEE Communications Society ITC Early Career Award 2016 and an ERC Consolidator Grant 2019.
Leon Kellerhals
PostDoc

Distributed Systems, University of Kassel

Oliver Hohlfeld
Oliver Hohlfeld is a Professor at the University of Kassel where he heads the Distributed Systems group. Before, he was professor at Brandenburg University of Technoligy and headded the Computer Networks group. He obtained his PhD from TU Berlin and was a member of Deutsche Telekom Innovation Laboratories. Oliver was a visiting scholar at the group of Paul Barford at the University of Wisconsin - Madison, USA.
Hozifah Bakar
PhD student

Abstract

[EN] Due to the important role that communication networks, and the Internet in particular, play in our society, such failures are seen as significant threats for our daily life’s. The main reason behind these failures? Networks are becoming more and more complex. While network operators are already struggling to control and to configure well-established protocols to patch failures or to prepare the Internet for the future, new technologies such as reconfigurable, softwarized, and programmable networks increase the amount of possible configuration knobs. Yet, network operators get left behind with their traditional network operation tools and solutions. Machine learning based network management solutions propose a way to handle complexity in network management. Yet, ML can itself harm network resilience by making wrong decisions and being understood as black-box solutions that cannot be fully understood. The goal of this project is to improve network resilience by identifying situations in which machine learning helps in making networks more resilient. To realize this goal, this project aims at deriving a methodology for performing risk assessment of (ML-driven) network management approaches. The influence of a given network management approach (e.g., ML-based) on network resilience will be captured in a resilience function that is derived by our methodology. In a second step, we capture the non-trivial interaction effects that can occur when deploying ML-based network management functions independently in different networks. To exemplify our methods, we target a wide area networking use case with focus on two problems: i) Internet routing and ii) attack detection and mitigation. We argue that ML can be suitable for managing complex networks, when it can be sufficiently controlled. The application of ML should actually increase but not harm network resilience. Our framework helps to realize the vision of having resilience-by-design when new ML-based solutions are proposed: it should become an integral part of analyzing ML solutions before putting them into effect.

[DE] Aufgrund der wichtigen Rolle, die Kommunikationsnetze und insbesondere das Internet in unserer Gesellschaft spielen, werden solche Ausfälle als erhebliche Bedrohung für unser tägliches Leben angesehen. Der Hauptgrund für diese Ausfälle liegt insbesondere in der stetig steigenden Komplexität heutiger Netze. Während Netzbetreiber bereits damit beschäftigt sind, etablierte Protokolle zu kontrollieren und zu konfigurieren, um Ausfälle zu beheben oder das Internet auf die Zukunft vorzubereiten, erhöhen neue Technologien wie rekonfigurierbare, softwarisierte und programmierbare Netze die Anzahl der Konfigurationsmöglichkeiten. Jedoch bleiben Netzbetreiber mit ihren traditionellen Werkzeugen für den Netzbetrieb auf der Strecke. Auf maschinellem Lernen (ML) basierende Netzwerkmanagementlösungen bieten eine Möglichkeit, die Komplexität des Netzwerkmanagements zu bewältigen. ML kann jedoch selbst die Widerstandsfähigkeit des Netzes beeinträchtigen, indem es falsche Entscheidungen trifft. Diese Entscheidungen sind zudem schwer nachzuvollziehen, da ML teilweise immer noch als sogenannte Black Box agiert. Das Ziel dieses Projekts ist es, die Widerstandsfähigkeit von Netzen zu verbessern, indem Situationen identifiziert werden, in denen maschinelles Lernen dazu beiträgt, Netze widerstandsfähiger zu machen. Um dieses Ziel zu erreichen, soll in diesem Projekt eine Methodik zur Risikobewertung von (ML-gesteuerten) Netzmanagementansätzen entwickelt werden. Der Einfluss eines bestimmten Netzmanagement-Ansatzes (z.B. ML-basiert) auf die Resilienz von Netzen wird mittels einer Resilienz-Funktion erfasst, die durch unsere Methodik abgeleitet wird. In einem zweiten Schritt erfassen wir die nicht-trivialen Interaktionseffekte, die auftreten können, wenn ML-basierte Netzmanagementfunktionen unabhängig voneinander in verschiedenen Bereichen von Netz (z.B. Routing und Abwehr von Anomalien) eingesetzt werden. Zur Veranschaulichung unserer Methoden nehmen wir einen Anwendungsfall aus dem Bereich der Weitverkehrsnetze ins Visier und konzentrieren uns dabei auf zwei Probleme: i) Internet-Routing und ii) Angriffserkennung und -abwehr. Wir argumentieren, dass ML für die Verwaltung komplexer Netze geeignet sein kann, wenn es ausreichend kontrolliert werden kann. Die Anwendung von ML sollte die Widerstandsfähigkeit der Netze erhöhen, und nicht beeinträchtigen. Unser Rahmenwerk hilft bei der Verwirklichung der Vision von Resilienz durch Design, wenn neue ML-basierte Lösungen vorgeschlagen werden: Es sollte ein integraler Bestandteil der Analyse von ML-Lösungen werden, bevor sie in die Praxis umgesetzt werden.