18.12.2024, 09:00 Uhr
Universität Wien
Durchführung per Videokonfernz
Titel: Backdoor Attacks with Hidden, Semantic-Preserving Triggers on
Text Models in Federated Learning
Kurzfassung:
Federated Learning (FL) gewinnt zunehmend in Branchen an Bedeutung, in denen
die zentrale Übertragung, Speicherung und Auswertung von Daten, z.B. aufgrund von
Datenschutzbedenken nicht erwünscht ist. Aufgrund seines dezentralen Ansatzes ist
Federated Learning besonders anfällig für Backdoor-Angriffe. Diese Arbeit untersucht
die Schwachstellen und Methoden von Backdoor-Angriffen auf Natural Language Processing
(NLP) Modelle im Federated Learning. Wir führen eine umfassende Analyse
bestehender Backdoor-Techniken sowohl im FL als auch im zentralisierten Lernen durch
und kategorisieren Angriffsstrategien basierend auf der Unauffälligkeit (Stealthiness)
ihrer Trigger. Als relevanten praktischen Beitrag passen wir einen bestehenden Angriff
aus dem zentralisierten Lernen an FL an und vergleichen diesen. Unsere Ergebnisse
zeigen, dass versteckte Trigger, wie z.B. solche, die die Syntax-Struktur ausnutzen, auch
im FL sehr effektiv sind, um NLP-Modelle zu kompromittieren. Wir konnten dabei
eine vergleichbare Backdoor- und Main-Task-Accuracy bei gleichzeitiger Stealthiness
erreichen. Darüber hinaus untersuchen wir die Anwendung von Zero-Shot-Prompting
mithilfe von Large Language Modellen (LLMs) auf die Erzeugung von Syntax-Triggern
und vergleichen deren Leistung mit vorherigen Ergebnissen.