11.12.2024, 12:00 Uhr
Universität Wien
Besprechungsraum 4.34
Währinger Str. 29
1090 Wien
Titel: Tabular reinforcement learning for reward robust,
explainable crop rotation policies matching deep
reinforcement learning performance
Kurzfassung:
Digitale Zwillinge werden im Bereich der Landwirtscha aufgrund des zunehmenden
Drucks auf die Lebensmittelsicherheit, der durch das Bevölkerungswachstum und den
Klimawandel verursacht wird, immer stärker erforscht. Sie bieten einen notwendigen
Anstoß für eizientere und nachhaltigere landwirtschaliche Methoden, um Erträge zu
sichern und zu steigern.
Digitale Zwillinge verwenden häufig maschinelles Lernen und in letzter Zeit auch Methoden
des Deep Learning in ihrer Architektur, um Daten zu verarbeiten und zukünige
Ergebnisse basierend auf Eingangsdaten vorherzusagen. Es bestehen jedoch weiterhin
Bedenken hinsichtlich der Vertrauenswürdigkeit der Vorhersageergbnissen von Deep-
Learning-Modellen, da es omals an der Erklärbarkeit der erbrachten Resultate mangelt.
Um den aktuellen Stand der Technik von auf Reinforcement Learning basierenden
Digitalen Zwillingen in landwirtschalichen Anwendungen zu bewerten, wurde eine
umfassende Literaturrecherche durchgeführt. Die Recherche hebt die am häufigsten
vertretenen Forschungsfelder hervor, indem sie diese kategorisiert, deckt jedoch auch
Forschungslücken auf, insbesondere im Hinblick auf Fruchtfolgeplanung und erklärbare
reinforcement learning Methoden.
Um diese Forschungslücken zu füllen, beschreibt diese Arbeit wird die Entwicklung von
fünf-Schritt Fruchtfolgeplänen, die mittels tabularen reinforcement learning Methoden
erlernt werden. Das Ziel der Pläne ist es, die Ernteerträge zu maximieren und gleichzeitg
eine gesunden Menge an Bodensticksto beizubehalten. Außerdem werden bei der Erstellung
der Pläne bereits bekannte Regeln in der Fruchtfolgeplanung berücksichtigt.
Die erwarteten Ernteerträge unterliegen jedoch Schwankungen, die durch das Wetter
oder Unterschiede im Marktpreise hervorgerufen werden können. Umdiese Einflüsse zu
berücksichtigen wurde ein Störfaktor zumden rewards im reinforcement learning hinzugefügt.
Um auch in diesem Szenario verlässliche Ergebnisse zu erhalten, wurden die tabularen
reinforcement learning Algorithmen robustifiziert. Die Änderungen an dem Algorithmus
wurden so gemacht, dass die resultierenden Fruchtfolgepläne immer noch
erklärbar sind.
Sowohl die Fruchtfolgepläne, die anhand der nicht fluktuierenden rewards berechnet
wurden, als auch die Pläne die an den fluktuierenden rewards berechnet wurden, werden
mit Plänen verglichen, die ein deep Q-learning Modell unter den gleichen Voraussetzungen
erlernt hat. Die verwendeten tabularen reinforcement learning Methoden erreichen
die Performance des deep Q-learning Modells im Falle, wo die rewards nicht verzerrt
sind. Allerdings im Szenario, wo die fluktuierenden rewards benutzt wurden, übertre
en die robusten tabularen reiforcement learning Methoden den deep learning Ansatz
und liefern immer noch interpretierbare Fruchtfolgepläne.
Durch Interviews mit Bauern und landwirtschalichen Experten wird gezeigt, dass die
berechneten Pläne sinnvoll umsetzbar sind und, dass der Einsatz von interpretierbarem
reinforcement learning das Vertrauen in der resultierenden Pläne erhöht hatunddadurch
die Wahrscheinlichkeit steigt, dass die Bauern die Pläne auch tatsächlich umsetzen.