Masterprüfung mit Defensio, Anna Wolff

27.07.2022 10:00 - 11:30

Durchführung per Videokonferenz

(Corona-Situation)

27.07.2022, 10:00 Uhr
Durchführung per Videokonferenz
(Corona-Situation)

Titel: „Exploratory Data Analysis with Google’s Tensor Processing
Unit (TPU): Enhancing Traditional Data Mining Algorithms with
the Use of the TPU on the Example of the k-Means Algorithm“

Kurzfassung:
In den letzten Jahren ist Menge der weltweit gesammelten Daten immens gestiegen.
Der Umgang mit dieser stetig wachsenden Menge an Daten erfordert zwei Strategien.
Einerseits werden Methoden und Algorithmen benötigt, um aussagekräftige Informationen
aus der Datenmenge zu extrahieren, und andererseits werden Rechenleistungen
benötigt, um die Menge an Daten zu verarbeiten. Beide Herausforderungen werden
adressiert. Das Forschungsgebiet Data Mining befasst sich mit der Identifizierung von
Mustern in Daten, der Interpretation der identifizierten Muster und der Durchführung
qualitativer oder quantitativer Vorhersagen oder Beschreibungen. Ein Schwerpunkt der
Forschung im Data Mining ist die Skalierung von Algorithmen für große und sehr große
Datensätze. Unternehmen wie Google entwickeln leistungsstarke Hardware, um den
Rechenanforderungen moderner Technologien gerecht zu werden. Im Jahr 2016 kündigte
Google die Tensor Processing Unit (TPU) an, die speziell für die Rechenanforderungen
von tiefen neuronalen Netzwerken (Deep Neural Networks) in den Rechenzentren von
Google konzipiert ist. Aber auch andere Data-Mining- und Machine-Learning-Techniken
können von der Rechenleistung der TPU profitieren.
Ziel dieser Masterarbeit ist es, den k-Means-Algorithmus durch den Einsatz der Google
TPU in Bezug auf die Laufzeit zu verbessern und gleichzeitig die Qualität der Clustering-
Ergebnisse zu erhalten. Im Rahmen der Masterthesis wurde ein k-Means-Algorithmus
mit Matrix-Matrix-Multiplikation implementiert, der auf die Anforderungen der TPU
zugeschnitten ist. Es wurden zwei Versionen entwickelt, die das Training auf der TPU auf
zwei verschiedene Arten verteilen. Die Clustering-Ergebnisse der beiden Versionen haben
Vorteile, die sich in Bezug auf Laufzeit und Genauigkeit ergänzen. Daher wird auch die
Kombination beider Versionen untersucht.
Die Berechnungszeit des k-Means-Algorithmus kann durch die Verwendung der TPU
erheblich beschleunigt werden. Es sollte jedoch berücksichtigt werden, dass das Laden
des Datensatzes auf die TPU zusätzliche Zeit in Anspruch nimmt und die Verwendung
einer TPU im Vergleich zu einer CPU oder GPU teurer ist. Daher wird die Verwendung
der TPU nur für große Datensätze epmfohlen und/oder wenn der k-Means-Algorithmus
mehrfach für denselben Datensatz wiederholt wird.

Organiser:

SPL 5

Location:

digital