18.12.2024, 16:00 Uhr
Universität Wien
Besprechungsraum 5.35
Währinger Str. 29
1090 Wien
Titel: FactCheck - A Framework for crawling Structured Data
Kurzfassung:
Moderne Webseiten enthalten oft semantisch reiche eingebettete Daten, um ihre Platzierung in
Suchmaschinen zu verbessern. Diese Daten werden von verschiedenen Datennutzern
verwendet, um ihren Benutzern semantisch angereicherte Ergebnisse zu präsentieren. Aus der
weit verbreiteten Nutzung dieser Art von Daten geht auch die Anforderung an die Korrektheit
der Daten vor. Derzeit erhalten Datennutzer wenig Unterstützung bei der Erkennung und
Korrektur von inkorrekten strukturierten Daten im Web. FactCheck++ ist ein Projekt, das sich
der Erstellung von Methoden und Werkzeugen zur Erkennung und Behebung von
widersprüchlichen Daten im Web widmet. In dieser Arbeit wird ein fokussiertes Web-
Crawling-System vorgestellt, welches das Ziel verfolgt, den Aufbau einer umfassende
Wissensbasis für das FactCheck++ Framework zu unterstützen. Das Crawling-System bietet
eine Reihe von Konfigurationsmöglichkeiten, berechnet Relevanzmetriken für besuchte
Webseiten und ist über ein Web-Frontend und eine RESTful-Anwendungsprogrammierschnittstelle
zugänglich. Diese Arbeit veranschaulicht die theoretischen Grundlagen,
Designentscheidungen, Details zur Implementierung des Systems und die experimentelle
Evaluierung des Prototyps.