Masterprüfung mit Defensio, Lüftinger Lukas

25.04.2019 15:00 - 16:30

Universität Wien

Campus-Vienna-Biocenter

VBC 5

1030 Wien

25.04.2019, 15:00 Uhr

Universität Wien
Campus-Vienna-Biocenter
VBC 5
1030 Wien

Titel: „Machine-Learning-Based Annotation Triage and Extraction of Microbial Phenotypic Traits From the Scientific Literature“

Kurzfassung:
Ausgelöst durch die stetige Reduktion der Kosten für DNA-Sequenzierung, sowie durch die Entwicklung verbesserter Genomassemblierungs-Algorithmen, werden zunehmend mehr mikrobielle Genome von hoher Qualität publiziert. Insbesondere im Fall von Genomen, welche aus metagenomischen Quellen assembliert wurden (sogenannte MAGs), ist typischerweise wenig über taxonomischen Status, funktionelle Eigenschaften und ökologische Bedeutung bekannt über die Spezies, von denen die Genome stammen. Um das Problem der funktionalen Kategorisierung von MAGs anzugehen, werden bioinformatischeWerkzeuge zur Vorhersage phänotypischer Merkmale aus der Genomsequenz entwickelt. Die vielversprechendsten Ansätze zur Vorhersage mikrobieller Merkmale basieren auf überwachten maschinellen Lernalgorithmen. Solche Algorithmen müssen an großen Mengen manuell kurierter Inputdaten trainiert werden - mikrobielle Genome, von denen bekannt ist, dass sie das genetische Potenzial haben, ihrem Ursprungsorganismus ein phänotypisches Merkmal zu verleihen. Depositionsraten mikrobieller Metadaten, einschließlich Merkmalsinformationen, an biologische Datenbanken hinken jedoch dem Wachstum mikrobieller Genomdatenbanken erheblich hinterher. Aus diesem Grund stellen die Annotation und Kuration von Merkmalsinformationen aus wissenschaftlichen Artikeln sowie die Kollation mit Genomsequenzen einen signifikanten Engpass in der Entwicklung von Pipelines zur Vorhersage von Merkmalen. Hier präsentiere ich Buchstabensuppe, einWerkzeug zur Extraktion mikrobieller phänotypischer Merkmale aus der wissenschaftlichen Literatur. Buchstabensuppe kann die Generierung von Trainingsdaten für Klassifikatoren zur Vorhersage von Merkmalen in mikrobiellen Genomen deutlich beschleunigen. Dies wird ermöglicht durchWerkzeuge für eine schnelle manuelle Annotation von Merkmalen in wissenschaftlichen Artikeln, sowie durch die Bereitstellung von Literaturauswertungen und automatisierten Textmining- Funktionen. Mit regelbasierter Vorfilterung und einem binären Klassifikationsansatz auf Basis der Support Vector Machine prognostiziert Buchstabensuppe die Merkmalsausprägung (positiv oder negativ) in Erstbeschreibungsartikeln neu beschriebener mikrobieller Arten. Die so vorhergesagten Eigenschaften können auf veröffentlichte Genome assoziierter Typenstämme übertragen und für das Training von Phänotyp- Vorhersagemodellen mit dem PICA-Tool verwendet werden. PICA-Modelle, die auf Datensätzen trainiert wurden, welche mit von Buchstabensuppe markierten Genomen angereichert waren, zeigten eine höhere Modellstabilität und balanced accuracy bei der Kreuzvalidierung im Vergleich zu Modellen, die auf einem kleineren, manuell annotierten Datensatz trainiert wurden.

Organiser:

SPL 5

Location:

VBC 5, Campus-Vienna-Biocenter 5, 1030 Wien