Masterprüfung mit Defensio, Benedikt Köhler

02.07.2025 15:00 - 16:30

Universität Wien

Besprechungsraum 4.34

Währinger Str. 29

1090 Wien

02.07.2025, 15:00 Uhr

Universität Wien
Besprechungsraum 4.34
Währinger Str. 29
1090 Wien

Titel: Political Leaning Prediction of Newspaper Articles

Kurzfassung:
Extremismus, unabhängig davon, ob er aus dem linken oder rechten politischen Spektrum
stammt, ist zu einer ernsthaften Herausforderung geworden, mit der viele Länder weltweit
zu kämpfen haben. Dies ist unter anderem auch beeinflusst durch meinungsbildender
Berichterstattung. Insbesondere Krisen wie die Finanzkrise 2008, Corona oder der
jüngste Krieg zwischen der Ukraine und Russland scheinen einen enormen Einfluss
auf die politisch motivierte Berichterstattung zu haben. [Peterson and Allamong, 2022]
Diese Arbeit untersucht, wie man mithilfe von Natural Language Processing (NLP)
die politische Ausrichtung eines Nachrichtenartikels vorhersagen kann. Wir fragen uns
dabei, wie können wir NLP und Pre-trained Language Models nutzen, um die politische
Ausrichtung von Zeitungsartikeln zu erkennen? Und wie können wir die Vorhersagen
optimieren? Wir wenden dabei die Methode der Weak Supervision mit Cross-Validation
an. Durch den Einsatz von Pre-trained Language Models wie DistilBERT und einer
innovativen Anpassung von Label Gewichtungen während des Trainings, versuchen wir
die Genauigkeit unseres Modelles zu verbessern.
Durch eine Reihe von verschiedenen Experimenten zeigen wir, dass sich mit unserem
Ansatz - Label während des Trainings eine Gewichtung mitzugeben - die Genauigkeit
eines Modells verbessern kann. Zeitgleich zeigen wir auch auf, dass man mit unserem
Ansatz schnell auf Schwierigkeiten mit Rechenressourcen tre!en kann. Dementsprechend
kann die Arbeit ein Grundstein für weitere Forschungsarbeiten im Zusammenhang von
politischer Ausrichtungserkennung der Nachrichtenartikel bilden, basierend auf Weak
Supervision und Cross-Validierungsmethoden.
In dieser Arbeit wird dargestellt, dass wenn man gewichtete Labels während des
Trainings nutzen möchte, aussagekräftigere Gewichtungen zu besseren Erfolgen führen,
als wenn man Gewichtungen nutzt, die sich sehr ähnlich sind. Dies haben wir durch das
Anwenden von k-fold Cross-Validierungsmethoden herausgefunden, bei welchen wir die
Validierungsscores für die Artikel im ausgelassenen k-fold als Gewichtung für die Labels
genutzt haben und diese bei einem finalen Training angewendet haben. Nachdem wir
die Gewichtungen aussagekräftiger gemacht haben und zum Beispiel dadurch, dass wir
die minimalste errechnete Gewichtung auf 0%, die maximalst errechnete Gewichtung auf
100% gesetzt haben und alles zwischendrin proportional angepasst haben, haben wir die
besten Resultate erhalten.
Mit einem anderen Experiment (Leave-one-out), welches als Fold einen kompletten
Nachrichtenverlag genutzt hat, haben wir weniger gute Resultate erhalten und lagen
sogar deutlich unter unserer Pre-Trained Language Model Baseline. Dies könnte darauf
zurückzuführen sein, dass unserer Datensatz eine sehr große Varianz an totalen
Nachrichtenartikeln pro Nachrichtenverlag aufweist.
Zusammenfassend konnten wir feststellen, dass es noch viel Potenzial gibt, um die
politische Ausrichtungserkennung zu verbessern und dass der Einsatz von Pre-Trained
Language Models in jedem Fall einen deutlichen Vorteil bringt im Vergleich zu anderen
Methoden wie zum Beispiel Logistic Regression. Zudem können durch weitere Methoden,
wie beispielsweise das Anpassen von Gewichtung pro Label, die Modelle noch weiter
verbessert werden.
 

Organiser:

SPL 5

Location:

Besprechungsraum 4.34

Währinger Straße 29
1090 Wien