Mastering Offloading and Correlated failures for resilient CommunicAtion networks (MOCCA)

Team

Kommunikationsnetze, University of Tübingen

  • Michael Menth
    Michael Menth is professor at the Department of Computer Science at the University of Tuebingen/Germany since 2010 and chairholder of Communication Networks. His special interests are performance analysis and optimization of communication networks, resource and congestion management, resilience and routing issues, industrial networking and Internet of Things. His current research focus is on network softwarization, network programmability, and Time-Sensitive Networking (TSN). Dr. Menth contributes to standardization bodies, notably to the IETF. He published more than 200 papers in the field of computer networking, holds numerous patents, participated in more than 150 TPCs, and organized multiple workshops and conferences.

  • Etienne Zink
    PhD Student

  • Fabian Ihle
    PhD Student

Kommunikationsnetze, TU Darmstadt

  • Björn Scheuermann
    Prof. Dr. Björn Scheuermann is a Professor for communication networks at TU Darmstadt. He regularly carries out research projects funded among others by federal ministries, the European Union, the state of Berlin and the German Research Foundation. He is a principal investigator of the Einstein Center Digital Future (ECDF), the Helmholtz-Einstein International Berlin Research School in Data Science (HEIBRiDS) and the BMBF-funded Weizenbaum Institute for the Networked Society, which he co-initiated. His research interests are in the areas of design of computer and network systems. In this context, he is looking at questions of security, resource efficiency and reliability.

  • Tobias Meuser
    PostDoc

  • Jonas Schönen
    PhD Student

Abstract

[EN] In this project, the resilience of communication infrastructures will be improved. We facilitate the implementation of advanced resilience mechanisms by offloading using efficient packet processing frameworks (EPPFs). We also design networks such that they can better survive correlated failures.

EPPFs process packets more efficiently than traditional user-space programs as they avoid some of the overhead induced by the networking stack and the kernel. Examples for EPPFs are eBPF, DPDK, and Snabb. They are suitable for programming high-performance virtual network functions (VNFs) so that these VNFs can be leveraged for offloading device functionality to the CPU of a server or a smartNIC. Performance is of utmost importance for offloading. Therefore, building blocks for VNFs, e.g., header rewriting, en- and decapsulation, etc. are implemented with different EPPFs and their throughput is compared on both server and smartNIC CPUs in a comprehensive performance study. Moreover, various signalling options for offloading are investigated. Then, novel network functions are implemented which are too complex for implementation on programmable hardware, and their performance is evaluated. They improve availability or security. Examples are the Packet Replication, Elimination, and Ordering Function (PREOF) or Network Attestation for Secure Routing (NASR). Furthermore, offloading will be studied to extend legacy hardware with new functionality. Examples of such new features are MPLS Network Actions (MNAs) which define new mechanisms for resilient forwarding. These activities are embedded into the standardization of the IETF.

Correlated failures of many similar components can happen due to security incidents, software bugs, or update problems, just to name a few. If many devices share a vulnerable property, massive outages are possible. We define generalized shared risk groups (GSRGs) as a set of components of a network - hardware or software - that share a common technical property such as CPU, operating system, or application software. They differ from conventional shared risk groups in that they do not depend on a common infrastructure. GSRGs from past incidents will be classified, they are modeled for existing networks, and their impact on network operation and service provisioning will be evaluated as a resilience metric. Networks with heterogeneous components are likely to have more GSRGs but smaller ones, which may improve network resilience when the heterogeneous components are appropriately organized. Thus, there is an optimization potential for the placement of heterogeneous components within a network, as well as regarding the placement of resilience mechanisms including their offloading. In the project we tackle this challenge both for greenfields and for brownfields when a number of components is substituted by new ones.

[DE] Das Projekt arbeitet an Verbesserungen für resiliente Kommunikationsinfrastrukturen. Zum einen wird die Implementierung komplexer Resilienz-Mechanismen durch Offloading mit Hilfe effizienter Paketverarbeitungs-Frameworks (EPVFs) ermöglicht. Zum anderen werden Netze so geplant und bestehende Netze so angepasst, dass sie korrelierte Fehler besser verkraften können.

EPVFs verarbeiten Pakete effizienter als normale User-Space Programme, weil sie einen Teil des Overheads vermeiden, der durch Networking Stack und Kernel verursacht wird. Beispiele für EPVFs sind eBPF, DPDK und Snabb. Sie sind für die Programmierung hochperformanter Virtual Network Functions (VNFs) geeignet, um Gerätefunktionalität auf Server- oder SmartNIC-CPUs auszulagern. Performanz ist für Offloading wichtig. Deswegen werden Bauteile für VNFs wie Änderung von Headern oder En- und Dekapsulierung mit unterschiedlichen EPVFs implementiert und ihr Durchsatz auf Server- und SmartNIC-CPUs umfassend verglichen. Weiter werden unterschiedliche Signalisierungsoptionen für Offloadding untersucht. Neue Netzfunktionen werden implementiert, welche zu komplex für Implementierung auf programmierbarer Hardware sind, und ihre Leistung wird untersucht. Sie verbessern Verfügbarkeit und Sicherheit. Beispiele sind Packet Replication, Elimination, and Ordering Function (PREOF) und Network Attestation for Secure Routing (NASR). Weiter wird Offloading zur Erweiterung von Bestands-Hardware um neue Funktionen untersucht. Beispiele dafür sind MPLS Network Actions (MNAs), welche neue Mechanismen für resiliente Weiterleitung definieren. Diese Aktivitäten sind in die Standardisierung der IETF eingebettet.

Korrelierte Ausfälle vieler ähnlicher Komponenten können beispielsweise durch Sicherheitsvorfälle, Software-Fehler oder Update-Probleme ausgelöst werden. Wenn viele Geräte sich eine verwundbare Eigenschaft teilen, kann dies massive Ausfälle verursachen. Wir definieren Generalized Shared Risk Groups (GSRGs) als Menge von Hardware- oder Software-Komponenten eines Netzes, bei denen eine technische Eigenschaft sich überlappt, z.B. CPU, Betriebssystem oder Anwendungsprogramme. Sie unterscheiden sich von normalen Shared Risk Groups, weil sie nicht von einer gemeinsam genutzten Infrastruktur abhängen. GSRGs vergangener Vorfälle werden klassifiziert und für existierende Netze modelliert. Ihre Auswirkung auf Netzbetrieb und Diensterberingung wird als Resilienzmetrik ermittelt. Netze mit heterogenen Komponenten haben mehr GSRGs, die dafür aber kleiner sind. Dies kann die Resilienz verbessern, wenn die heterogenen Komponenten geeignet angeordnet sind und geeignet genutzt werden. Bei der Platzierung heterogener Komponenten in einem Netz besteht somit ein Optimierungspotenzial, ebenso wie bei der Platzierung von Resilienzmechanismen einschließlich deren Offloading. Im Projekt betrachten wir dies sowohl für neue als auch für bestehende Netze, wenn nur wenige Geräte durch neue ausgetauscht werden.