01.07.2025, 09:00 Uhr
Universität Wien
Besprechungsraum 5.35
Währinger Str. 29
1090 Wien
Titel: Information Extraction Pipeline for Generating RDF Triples
Kurzfassung:
Die schnelle Ausbreitung des Internets hat zu einem erheblichen Anstieg der erzeugten
Informationsmenge geführt. Dies hat zur Folge, dass die meisten dieser Informationen in
einer für den Menschen lesbaren Form generiert werden. Um diese Informationen, welche
in lesbarer Form verö!entlicht werden, weiterzuverarbeiten, müssen verschiedene ()nlp}
Techniken eingesetzt werden. Diese ermöglichen es, diesen Text in ein strukturiertes
Datenformat zu transformieren. Diese Masterarbeit befasst sich mit diesem Problem und
stellt eine Pipeline zur Informationsextraktion vor, die darauf ausgelegt ist, strukturierte
Daten aus Text zu extrahieren. Die extrahierten Daten werden dann im Anschluss anhand
eines bestehenden DBpedia Wissensgraphen überprüft und visualisiert. Bereits entwickelte
Pipelines und End-to-End-Systeme werden in der Regel auf großen Datensätzen mit
vordefinierten, sehr allgemeinen Beziehungen trainiert und erzielen im Allgemeinen gute
Ergebnisse. Allerdings mangelt es ihnen oft an Flexibilität, sie erfordern umfangreiche
manuell annotierte Daten und neigen dazu, Entitäten zu verwerfen, die nicht mit etablierten
Named Entities übereinstimmen, was zu einem Informationsverlust führt. Um diese
Herausforderungen zu überwinden, führt die entwickelte Pipeline neuartige Methoden ein
und umfasst neue Lösungen, um die genannten Beschränkungen zu überwinden. Diese
Pipeline verwendet eine Kombination von NLP Methoden, im Zusammenhang mit einem
Rule-Based System, um strukturierte Daten über Unternehmen aus Wikipedia-Artikeln
zu extrahieren. Der Schwerpunkt liegt dabei auf der Anwendung der Pipeline auf dem
klar definierten Bereich von Unternehmen, um die Komplexität zu senken, und somit eine
erhöhte Genauigkeit zu erzielen. Die Ergebnisse der Pipeline werden automatisch mit
DBpedia abgeglichen, um zwischen den bereits in DBpedia vorhandenen Informationen
und dem zusätzlich entdeckten Wissen zu unterscheiden. Darüber hinaus generiert die
Pipeline Visualisierungen aus allen extrahierten Tripeln, einschließlich derjenigen, die nicht
mit dem DBpedia-Wissensgraphen übereinstimmen. Dies erleichtert die Identifizierung
von Schlüsselkonzepten und Schlüsselentitäten ohne manuelles Lesen des Textes. In dieser
Arbeit wird die Pipeline geprüft, indem ihre Schlüsselkomponenten analysiert und deren
Performance bewertet wird. Eine Fallstudie wird durchgeführt, um die Gesamtergebnisse
der Pipeline zu bewerten. Die Ergebnisse werden ausführlich diskutiert, und es wird ein
allgemeiner Ausblick auf die Zukunft gegeben.