Masterprüfung mit Defensio, Loris Schoenegger

09.07.2024 13:00 - 14:30

Universität Wien

Besprechungsraum 4.34

Währinger Str. 29

1090 Wien

09.07.2024, 13:00 Uhr

Universität Wien
Besprechungsraum 4.34
Währinger Str. 29
1090 Wien

Titel: An Evaluation of Explanation Methods for Detectors of Machine-
Generated Text

Kurzfassung:
Das Verhalten sprachmodellbasierter Detektoren für maschinell generierten Text und die
Merkmale, die sie zur Klassifizierung nutzen könnten, sind noch nicht vollständig erforscht.
Um Erkenntnisse über das Verhalten dieser Detektoren zu gewinnen, können die
Erklärungsmethoden SHAP, LIME und Anchor angewendet werden. Diese Methoden
können darüber Aufschluss geben, welche Textstellen für die Entscheidung herangezogen
wurden. Die Qualität der entstandenen Erklärungen wurde jedoch bisher nicht im Detail
beurteilt. Diese Arbeit führt die erste systematische Bewertung solcher Erklärungen
im Kontext dieser Problemstellung durch. Die Dimensionen faithfulness (originalgetreue
Abbildung des Entscheidungsprozesses) und stability (ausreichende Sensitivität und ausreichend
deterministisches Verhalten) werden mit fünf automatisierten Metriken bewertet.
Usefulness (Nützlichkeit) wird mit Versuchspersonen evaluiert. SHAP-, LIME- und
Anchor-Erklärungen werden für Entscheidungen dreier sprachmodellbasierter Detektoren
erstellt. Hierfür wird ein Datensatz aus ChatGPT-generierten und von Menschen verfassten
Dokumenten verwendet.
SHAP schneidet hinsichtlich faithfulness und stability am besten ab. LIME und Anchor
verfehlen jeweils eine Baseline in den zwei durchgeführten Experimenten zur faithfulness.
LIME wird von den Teilnehmenden als am nützlichsten empfunden, führt jedoch nicht
zu messbar besserem Abschneiden in einem Versuch, in dem das Verhalten des Detektors
vorhergesagt werden soll. Anchor, von den Versuchspersonen als am wenigsten nützlich
empfunden, übertrifft LIME in dieser Hinsicht.

Organiser:

SPL 5

Location:

Besprechungsraum 4.34

Währinger Straße 29
1090 Wien