Masterprüfung mit Defensio, Suzana Marsela

04.02.2025 14:00 - 15:30

Universität Wien

Besprechungsraum 3.28

Währinger Str. 29

1090 Wien

04.02.2025, 14:00 Uhr

Universität Wien
Besprechungsraum 3.28
Währinger Str. 29
1090 Wien

Titel: Distinguishing Cause and Effect by Analysis and Experimental Evaluation
of the Heteroscedastic Noise Causal Method CLS-MML

Kurzfassung:
Wir betrachten die Herausforderung der Kausalinferenz in einem bivariaten Szenario
unter Verwendung rein beobachtender Daten. Ein zentraler Bestandteil dieser Arbeit ist
die Nutzung der Datenwerte zweier Variablen, um zu bestimmen, welche von beiden die
Ursache und welche die Wirkung ist. Kausale Zusammenhänge zu erschließen – wie etwa
zu bestimmen, ob ein bestimmter Lebensstilfaktor (wie Sport) zu verbesserter Gesundheit
führt oder ob Gesundheit die Lebensstilentscheidungen beeinflusst – ist eine ehrgeizige,
aber wichtige Aufgabe in vielen Bereichen wie Medizin, Wirtschaft, Landwirtschaft und
anderen. Diese Arbeit untersucht den Einsatz bivariater kausaler Methoden, die auf
einem informations-theoretischen Ansatz basieren, um die kausale Richtung zwischen zwei
Variablen zu bestimmen.
Wir adressieren das Inferenzproblem durch die Verwendung eines SCM, um die Ursache-
Wirkungs-Beziehung zwischen Variablen darzustellen. Dadurch kann die kausale Richtung
nach der Schätzung des Modells in beiden Richtungen identifiziert werden. Konkret
verwenden wir ein LSNM, um die Wirkungsvariable zu modellieren, wobei sowohl der
Mittelwert als auch die Varianz des Störterms von der Ursache abhängen. Um dieses
Modell zu schätzen, führen wir eine neuartige Methode ein, bei der die Ursachvariable
einer Student-t-Verteilung folgt. Zur Kausalitätsinferenz nutzen wir KC, insbesondere
dessen Näherung durch das MML-Prinzip. MML wird verwendet, um das Modell zu
finden, das die Gesamtlänge der Nachricht, die erforderlich ist, um sowohl das Modell als
auch die Daten in beiden kausalen Richtungen zu beschreiben, minimiert. Die kürzere
Beschreibung wird als Ursache identifiziert. Daraus schließen wir, dass X die Ursache von
Y ist, falls die MML-Beschreibung kürzer ist, um Y als Funktion von X zu beschreiben,
als in der umgekehrten Richtung. Die in dieser Arbeit untersuchte CLS-MML-Methode
integriert all diese Konzepte, um effektiv zwischen Ursache und Wirkung von Variablen
zu unterscheiden.
Um die Effektivität der CLS-MML-Methode zu veranschaulichen, haben wir sie an 13
Benchmark-Datensätzen getestet, einschließlich eines realen Datensatzes namens Tübingen
Kausalpaar-Datensatz, der Daten von 99 verschiedenen Ursache-Wirkungspaaren
enthält. Wichtig ist, dass in dieser Datenbasis die wahren kausalen Richtungen aller Paare
vollständig bekannt sind, was uns ermöglicht, unseren Ansatz zu validieren und unsere
Entscheidungen zu motivieren. Unsere empirischen Auswertungen zeigten, dass unsere
Methode bei einigen synthetischen Datensätzen bessere Präzisionsergebnisse erzielt und
eine Genauigkeit von bis zu 70% auf dem realen Tübingen-Datensatz erreicht.
Während wir verschiedene Optimierungsstrategien zur Maximierung der Genauigkeit
unseres Modells untersuchten, beobachteten wir, dass das SNR der Datensatzverteilung
eine entscheidende Rolle spielte. Darüber hinaus beeinflusste dieWahl der Hyperparameter
der Student-t-Verteilung – sowohl der initial gewählten als auch der vom Algorithmus
optimierten – die Leistung des Modells erheblich. Trotz der Einfachheit des Modells
schneidet unser Algorithmus im Vergleich zu 8 verschiedenen Methoden bei einigen
synthetischen Datensätzen allgemein gut ab und zeigt gute Ergebnisse bei den Tübingen-
Datensätzen. Hier ist er konkurrenzfähig mit den modernsten Methoden und erreicht eine
Genauigkeit von bis zu 70%.

Organiser:

SPL 5

Location:

Besprechungsraum 3.28

Währinger Straße 29
1090 Wien