Masterprüfung mit Defensio, Verena Grilnberger

11.03.2024 12:00 - 13:30

Universität Wien

Besprechungsraum 4.34

Währinger Str. 29

1090 Wien

11.03.2024, 12:00 Uhr

Universität Wien
Besprechungsraum 4.34
Währinger Str. 29
1090 Wien

Titel: „Evaluation and Integration of the Big Data Framework Spark“

Kurzfassung:
Diese Arbeit untersucht Apache Spark, ein Big-Data-Cluster-Computing-Framework, im
Hinblick auf verschiedene Anwendungsfälle der Datenanalyse, welche für Data Scientists
relevant sind. Besonderes Augenmerk liegt auf der R Schnittstelle von Apache Spark, die
über die beiden R Bibliotheken SparkR und sparklyr bereitgestellt wird. Darüber hinaus
wird die vom Framework bereitgestellte Fehlertoleranz im Hinblick auf Knotenausfälle
untersucht. Diese Arbeit versucht die Frage zu beantworten, ob Benutzer der Bibliotheken
data.table, ranger, xgboost, snow und foreach den Wechsel zu Apache Spark in
Betracht ziehen sollten, um ihre Leistung bezüglich der Laufzeit sowie die Qualität ihrer
Ergebnisse zu verbessern.
Um diese Frage zu beantworten wurde das Framework durch die Durchführung einer
Reihe von Experimenten untersucht. Diese Experimente waren einerseits von der Apache
Spark Schnittstelle inspirierte Anwendungsfälle — wie verschiedenen Algorithmen für
maschinelles Lernen oder besagte Fehlertoleranz — und andererseits klassische Anwendungsfälle
von Data Scientists — wie Daten-Aggregationen oder die Anwendung
benutzerdefinierter Funktionen auf eine große Menge an Daten. Diese Experimente
wurden hinsichtlich ihrer Laufzeitleistung und gegebenenfalls ihrer Vorhersage-Qualität
bewertet.
Die Ergebnisse zeigen, dass Apache Spark in einigen Anwendungsfällen eine bessere
Leistung erbringen kann als eine reine R-Implementierung, während Apache Spark bei anderen
Anwendungsfällen nicht die Performance von R Paketen erreichen kann. Bezüglich
Ausfallsicherheit und Knotenausfällen zeigen die Ergebnisse kaum Unterschied im Ergebnis
der Berechnung, was beweist, dass Apache Spark unabhängig von Knotenausfällen die gleichen Ergebnisse liefert.
Wir kommen zu dem Schluss, dass Apache Spark – in der getesteten Version und
Konfiguration – den R Implementierungen nicht vorzuziehen ist. Die Änderung der
Code-Struktur wäre so bedeutend, dass jeder, der mit dem System arbeitet, die neuen
Spark-Bibliotheken erlernen müsste. Darüber hinaus würde die Umstellung eines bereits
vorhandenen Systems auf Apache Spark zu viele Änderungen an der Anwendung mit sich
bringen und viele Tests erfordern, um die gleiche Qualität sicherzustellen.

Organiser:

SPL 5

Location:

Besprechungsraum 4.34

Währinger Straße 29
1090 Wien