05.11.2025, 11:00 Uhr
Universität Wien
Besprechungsraum 4.34
Währinger Str. 29
1090 Wien
Titel: Scheduling of Containerised Workloads in Clusters with Remote
Direct Memory Access for Distributed Multi-Node Inference of
Foundation Models
Kurzfassung:
In großen Bereitstellungen von Foundation-KI-Modellen, bei denen eine einzelne Modellinstanz
mehrere Server umfasst, beinhaltet die verteilte Inferenz typischerweise einen
Netzwerk-Datenaustausch. Dies führt zu Kommunikationskosten für die Verarbeitung
von Inferenzanfragen mit negativen Auswirkungen auf sowohl Latenz als auch Durchsatz,
was an diesen ohnehin rechenaufwändigen Prozess zusätzliche Ressourcenanforderungen
stellt. Um die Kommunikationskosten bei der verteilten Mehrknoten-Serving großer
Modelle zu reduzieren und eine effizientere Nutzung der verfügbaren Rechen- und Netzwerkinfrastruktur
in Rechenzentren zu erreichen, definieren und implementieren wir
einen umfassenden Ansatz zum Scheduling von containerisierten Inferenz-Workloads in
Clustern mit Hochgeschwindigkeits-Interconnects. Insbesondere verwenden wir Remote
Direct Memory Access (RDMA) Technologien in Kubernetes-Clustern und entwickeln
Analysesoftware, um relevante Metriken kontinuierlich zu erfassen und sie in einem Cluster
bekanntzumachen. Darauf aufbauend entwerfen und entwickeln wir eine maßgeschneiderte
Scheduling-Logik, um Scheduling-Entscheidungen für Inferenz-Workloads mit RDMA auf
die Optimierung der Kommunikationskosten durch Grafen-Zentralitätsmaße auszurichten.
Solche Zentralitätsmaße können für bestimmte Parallelisierungstechniken bei der verteilten
Inferenz von Foundation-Modellen nützlich sein, wie etwa Expertenparallelisierung
für große Mixture-of-Experts (MoE) Modelle, die wir untersuchen und zur Evaluierung
unseres Scheduling-Mechanismus verwenden.
