09.04.2025, 16:00 Uhr
Universität Wien
Besprechungsraum 4.34
Währinger Str. 29
1090 Wien
Titel: Time Series Comparison of Global Infectious Disease Cases and
Online Symptom-Checker Assessments
A comparison of time series resulting from confirmed cases of
infectious diseases and online symptom-checker assessment.
Kurzfassung:
Diese Masterarbeit untersucht die Ähnlichkeit zwischen online Testdaten bestätigten globalen
COVID-19-Fällen. Erstere wurden durch den Online-Symptom-Checker Symptoma generiert und letztere
von der Johns Hopkins University (JHU) aggregiert. Diese Arbeit trägt zur wissenschaftlichen Literatur im
Bereich der Infodemiologie[11] bei, einer Disziplin, die sich mit der Nutzung internetbasierter Daten zur
Überwachung und Analyse epidemiologischer Entwicklungen befasst.
Die zentralen Ziele dieser Arbeit sind es, zu analysieren, inwiefern der Online-Symptom-Checker
Symptoma spezifische Zeitreihen für unterschiedliche Krankheitsbilder erzeugt und ob diese mit den
offiziell berichteten COVID-19-Fällen in einer systematischen Beziehung stehen. Es wurden die 40
häufigsten Krankheitsvorschläge durch Symptoma in Österreich ausgewählt. Für jede dieser
Erkrankungen wurden Zeitreihen generiert, indem die Anzahl der NutzerInnen aggregiert wurde, bei
denen die jeweilige Krankheit unter den 30 wahrscheinlichsten Ursachen von Symptoma aufgeführt
wurde. Anschließend wurden diese Zeitreihen mit den bestätigten COVID-19-Fällen verglichen, wobei der
Pearson-Korrelationskoeffizient (PCC) zur Bestimmung der Ähnlichkeit herangezogen wurde. Zudem
wurde der Überlappungskoeffizient der Symptome berechnet, um strukturelle Gemeinsamkeiten zwischen
den Krankheitsbildern zu quantifizieren. Krankheiten mit einem niedrigen Symptom-Überlappung mit
COVID-19 zeigten ebenfalls eine niedrige Korrelation mit der Zeitreihe aus durch Symptoma
identifizierten COVID-19 Fällen. Selbst Atemwegserkrankungen, die wie erwartet eine hohe
Symptom-Überlappung aufweisen zeigen einen PCC von maximal 0,44. Demnach sind die Zeitreihen
generiert mit den Nutzerdaten des Online-Symptom-Checker Symptoma unter sich einzigartig. Diese
Ergebnisse zeigen, dass Symptoma selbst ähnliche Krankheiten verlässlich voneinander unterscheiden
kann.
Die Datenbasis der zweiten Analyse umfasst aggregierte Nutzungsdaten von Symptoma sowie Fallzahlen
der JHU, die den Zeitraum vom 1. Mai 2020 bis zum 1. Mai 2021 abdecken. Um zeitliche Verschiebungen
in den Fallzahlen zu berücksichtigen, wurde der PCC für eine optimale Verschiebung (lag) zwischen -30
und +30 Tagen berechnet. Diese Berechnungen erfolgten für 18 von 84 untersuchten Ländern, wobei die
Auswahl der Länder auf der Verfügbarkeit durchgängig erfasster Daten über 366 Tage basierte. Die
Analyse ergab eine durchschnittliche zeitliche Verschiebung von +10 Tagen sowie eine mittlere
Korrelation von 0,55 zwischen den Symptoma-Daten und den COVID-19-Fallzahlen der JHU in den
ausgewählten Ländern. Diese Ergebnisse wurden durch zusätzliche Ähnlichkeitsmaße bestätigt, darunter
die euklidische Distanz (L2-Norm), das Dynamic Time Warping (DTW) sowie die Time Warped Edit
Distance (TWED).
Die festgestellte positive mediane Verschiebung weist darauf hin, dass Fälle infektiöser Erkrankungen
tendenziell früher in Symptoma-Daten sichtbar werden als in den offiziell gemeldeten Fallzahlen. Daraus
lässt sich ableiten, dass Online-Symptom-Checker wie Symptoma potenziell als Frühwarnsysteme für
aufkommende Krankheitsausbrüche genutzt werden können. Gleichzeitig werden in dieser Arbeit die
Grenzen einer solchen Anwendung diskutiert. Es konnte beobachtet werden, dass die Korrelation
zwischen den offiziellen Fallzahlen und den Symptoma-Daten nach der zweiten Infektionswelle in den
meisten Ländern signifikant abnahm. Dies wird als Hinweis auf eine zunehmende Ermüdung in der
Bevölkerung hinsichtlich der COVID-19-Berichterstattung interpretiert, ein Phänomen, das auch in
anderen wissenschaftlichen Arbeiten dokumentiert wurde[36].
Die Ergebnisse dieser Arbeit verdeutlichen das Potenzial digitaler Gesundheitsdaten für die
epidemiologische Überwachung, zeigen aber gleichzeitig die Notwendigkeit einer differenzierten
Betrachtung der Limitationen und methodischen Herausforderungen auf. Zukünftige Forschungen sollten
sich darauf konzentrieren, die Übertragbarkeit der Ergebnisse für weitere geografische Regionen und
Krankheitsbilder zu untersuchen sowie alternative algorithmische Ansätze zur Optimierung der
Datenanalyse einzusetzen.
Durch die Verbindung von internetbasierten Gesundheitsdaten mit epidemiologischen Modellierungen
leistet diese Arbeit einen Beitrag zur Weiterentwicklung digitaler Überwachungsmethoden und bietet eine
Grundlage für die mögliche Implementierung von Online-Symptom-Checkern als unterstützende
Werkzeuge im Bereich des öffentlichen Gesundheitswesens.