Resilient Network Virtualization Architecture
(Resilient Network Virtualization Architecture)
Team
Systems Research Group, TU Munich
-
Pramod Bhatotia
Prof. Dr. Pramod Bhatotia is a Professor at the TUM and an Honorary Professor at the University of Edinburgh. He also actively works in several industrial research labs, most recently as the Founding Technical Director of the Huawei Dresden Research Center. Previously, he worked with Microsoft Research, IBM Research, Yahoo! Research, Adobe Systems, and Bell Labs. His research interests span computer systems, including distributed systems, cloud computing, operating systems, virtualization, compilers, quantum computing, dependable systems, and system security. -
Masanori Misono
PostDoc -
Peter Okelmann
PhD Student
The Max Planck Institute for Software Systems
-
Antoine Kaufmann
Prof. Dr. Antoine Kaufmann is a tenure-track faculty member at the Max Planck Institute for Software Systems (MPI-SWS), where he leads the operating systems research group. He also serves in an adjunct faculty role at the Chair of Distributed Systems and Operating Systems at TUM. His research centers on the interplay of software and hardware in post-Moore systems — specialized systems comprising tightly integrated and co-designed hardware and software components. -
Matheus Stolet
PhD Student
Abstract
[EN] Cloud computing has become an indispensable network infrastructure in our lives. However, despite advancements in network virtualization, there is a clear lack of a unified framework that seamlessly integrates key principles of resilience that enable fault tolerance, low operational overhead, and flexible and predictable resource management while maintaining strict security isolation. Existing solutions focus on optimizing individual aspects, such as enhancing fault tolerance or reducing latency, while compromising other aspects crucial for real-world cloud environments. To address this, in this project, we aim to develop a network virtualization architecture that achieves resilience, effectively meeting the diverse demands of modern cloud workloads while maintaining fault-tolerance, predictable performance, and strong security with operational flexibility. In thrusts, we focus on network device virtualization systems and virtualized network stacks that are indispensable building blocks in modern clouds. First, we design a resilient network device virtualization framework specifically for multi-tenant cloud environments, incorporating programmable features for predictable network management, and enabling efficient and secure networking by leveraging sandboxing technologies. Second, we design a flexible shared network stack to improve resource utilization, providing fine-grained performance isolation, low processing overhead, across the full gamut of cloud servers, from small single-socket machines to emerging large-scale NUMA and disaggregated machines. With these results, our project will enable more comprehensive resilience for new and legacy applications in the cloud.
[DE] Cloud Computing ist zu einer unverzichtbaren Netzwerkinfrastruktur in unserem Leben geworden. Trotz der Fortschritte in der Netzwerkvirtualisierung fehlt jedoch ein einheitliches Framework, das wichtige Prinzipien der Resilienz nahtlos integriert, die Fehlertoleranz, geringer Overhead und eine flexible und berechenbare Ressourcenverwaltung ermöglicht und gleichzeitig eine strenge Sicherheitsisolierung gewährleistet. Bestehende Lösungen konzentrieren sich auf die Optimierung einzelner Aspekte, wie z. B. die Verbesserung der Fehlertoleranz oder die Verringerung der Latenz, während andere, für reale Cloud-Umgebungen entscheidende, Aspekte vernachlässigt werden. Deshalb, entwickeln wir in diesem Projekt eine resilliente Netzwerkvirtualisierungsarchitektur, die die vielfältigen Anforderungen moderner Cloud-Workloads effektiv erfüllt, während gleichzeitig Fehlertoleranz, vorhersehbare Performance und hohe Sicherheit bei operativer Flexibilität gewährleistet sind. Dabei konzentrieren wir uns auf Netzwerkgeräte-Virtualisierung und virtualisierte Netzwerkstacks, beides unverzichtbare Bausteine in modernen Clouds. Zunächst entwerfen wir ein resilientes Netzwerkgeräte-Virtualisierungsframework speziell für Multi-Tenant-Cloud-Umgebungen, das programmierbare Funktionen für ein berechenbares Netzwerkmanagement enthält und durch den Einsatz von Sandboxing-Technologien eine effiziente und sichere Vernetzung ermöglicht. Zweitens entwickeln wir einen flexiblen geteilten Netzwerkstack zur Verbesserung der Ressourcennutzung, der eine fein abgestufte Performance-Isolierung und einen geringen Verarbeitungsaufwand über die gesamte Bandbreite an Cloud-Servern, von kleinen Single-Socket-Maschinen bis hin zu neuen groß angelegten NUMA- und disaggregierten Maschinen. Mit diesen Ergebnissen wird unser Projekt eine umfassendere Resillienz für neue und bestehende Anwendungen in der Cloud ermöglichen.