Masterprüfung mit Defensio, Kiss Patrick

31.01.2020 14:00 - 15:30

Universität Wien

Besprechungsraum 5.35

Währinger Straße 29

1090 Wien

31.01.2020, 14:00 Uhr

Universität Wien
Besprechungsraum 5.35
Währinger Straße 29
1090 Wien

Titel: Toward Customized Tracking of Topic Evolution

Kurzfassung:
Das Analysieren von Themen über eine Zeitspanne war seit langer Zeit immer wieder Thema mehrerer Arbeiten und hat viel Interesse bei Wissenschaftlern gezeigt. Es gibt einen weitläufig bekannten Algorithmus, der bisher oft verwendet wird, jedoch gibt es mittlerweile einen neuen Ansatz, dieses Problem zu lösen. Dieser neue Ansatz verwendet Wortmodelle und Algorithmen zum Bilden von Gruppierungen ähnlicher Entitäten. In dieser Arbeit vergleichen wir diese beiden Ansätze und erarbeiten das Hintergrundwissen, das man benötigt, um den neuesten Ansatz zu verstehen. Wir erklären die Problemstellungen, welche sich bei dem neueren Ansatz ergeben haben und noch offen sind. Einerseits stellten die damaligen Autoren fest, dass die gefundenen Themen zwar alles in allem gut waren, jedoch gab es auch eine große Anzahl an ungewollten Themen, welche nicht wichtig erschienen. Andererseits war auch die Analyse eines Themas selbst problematisch, da sich manche Themen, vor allem in einem großen Datenset, aus einer hohen Anzahl an Wörtern zusammensetzten, was ein Thema nicht immer überschaubar machte. Weiters gab es keine Möglichkeit, die Wörter nach ihrer Wichtigkeit für ein Thema zu reihen. In unserer Arbeit fügen wir zum einen die Möglichkeit hinzu, Themen zu filtern. Mithilfe der bereits im bestehenden Algorithmus genutzten Netzwerkstruktur, verwenden wir bekannte Metriken der Netzwerkanalyse, um die Wichtigkeit eines Themas zu definieren. Wir haben mehrere Kombinationen dieser Analysemethoden getestet, um zum besten Ergebnis zu kommen. Zum anderen gibt es nun einen Weg, Wörter in einem Thema zu filtern und nach Originalität zu reihen. Hierzu verwenden wir die k-core decomposition, um die wichtigsten Kernwörter eines Themas zu finden, und reihen diese dann mithilfe der TF-IDF. In unserer Evaluierung haben wir einerseits um die Bewertung mehrerer User gebeten, andererseits haben wir auch objektive automatische Analysemethoden angewendet. Bei der Userbewertung haben wir User, die ein von uns erstelltes Datenset für ihr eigenes Paper verwendeten, um die Beantwortung mehrerer Fragen einer Umfrage gebeten. Hierbei wurden Fragen bezüglich der Qualität und Brauchbarkeit unserer Themen gestellt. Weiters wurden zwei Use Case Studies basierend auf zwei verschiedenen Datensets erstellt. Bei der quantitativen Evaluierung haben wir auf den Pairwise Mutual Information score zurückgegriffen, mit welchem wir die Kohärenz eines Themas (Wie gut die Wörter in einem Thema zusammenpassen) getestet haben. Zum Abschluss wird auch die Laufzeit jedes Teils des neuen, adaptierten Algorithmus analysiert. Der Vergleich zeigt, dass beide Evaluierungstypen darin übereinstimmen, dass unsere Adaptierungen zu einer Verbesserung des Algorithmus geführt haben und dieser nun besser zur weiteren Analyse verwendet werden kann.Weitere Verbesserungsmöglichkeiten und deren Begründungen werden zum Abschluss der Arbeit angeführt.

Organiser:

SPL 5

Location:

Besprechungsraum 5.35

Währinger Straße 29
1090 Wien