Skip to content

Ergebnisse der Masterarbeit mit dem Titel "Adaption von MCTS und AlphaZero für Spiele mit imperfekter Information am Beispiel Doppelkopf" an der Fernuniversität in Hagen

License

Notifications You must be signed in to change notification settings

theodm/master_doko_reinforcement_learning

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Adaption von MCTS und AlphaZero für Spiele mit imperfekter Information am Beispiel Doppelkopf

Hier befindet sich der Source Code, der im Rahmen der Abschlussarbeit "Adaption von MCTS und AlphaZero für Spiele mit imperfekter Information am Beispiel Doppelkopf" an der Fernuniversität in Hagen unter Betreuung von Dr. Fabio Valdés enstand.

Die schriftliche Ausarbeitung ist im Repository unter /docs/final.pdf zu finden. Die zugehörige Abschlusspräsentation ist unter /docs/final.pptx.

Zusammenfassung der Arbeit

Das automatische Spielen von Brett- und Computerspielen dient traditionell als wichtiges Testfeld und Anwendungsgebiet für Fortschritte in der künstli- chen Intelligenz (KI). Während für Spiele mit perfekter Information, wie Go oder Schach, bereits herausragende Erfolge erzielt wurden, stellen Spiele mit imperfekter Information, bei denen Spieler nur einen Teil des Spielzustands beobachten können, aufgrund der daraus resultierenden Unsicherheiten nach wie vor eine große Herausforderung dar.

Diese Arbeit untersucht, wie das etablierte Suchverfahren Monte Carlo Tree Search (MCTS) sowie das Lernverfahren AlphaZero, die in ihrer Grundform nur auf Spiele mit perfekter Information anwendbar sind, so erweitert werden können, dass sie auch auf Spiele mit imperfekter Information angewendet wer- den können. Hierfür wird der Ansatz der Determinisierung verfolgt: Aus der unvollständigen Beobachtung eines Spielers werden zunächst ein oder meh- rere plausible vollständige Spielzustände rekonstruiert. Auf diesen rekonstru- ierten Zuständen werden anschließend der MCTS und AlphaZero ausgeführt. Für die Zustandsrekonstruktion kommen sowohl ein statischer, regelbasierter Algorithmus als auch ein trainierbares autoregressives Modell, basierend auf der Transformer-Architektur, zum Einsatz.

Der vorgestellte Ansatz wird exemplarisch am deutschen Kartenspiel Dop- pelkopf evaluiert. Als Stichspiel mit vier Spielern, die in teils unbekannten Partnerschaften agieren, bietet Doppelkopf strategische Tiefe und dient als geeignetes Testfeld für die entwickelten Methoden. Die Evaluierung der resul- tierenden Spielstärke anhand mehrerer spielspezifischer Metriken zeigt, dass das autoregressive Modell zuverlässig plausible Zustände generiert und der Determinisierungsansatz zu einer kompetenten, wenn auch nicht optimalen, Spielstrategie führt. Die Arbeit beleuchtet abschließend die konzeptionellen und praktischen Limitationen dieses Ansatzes und die Anwendbarkeit auf andere Spiele.

Abschlusspräsentation

Folie 1 Folie 2 Folie 3 Folie 4 Folie 5 Folie 6 Folie 7 Folie 8 Folie 9 Folie 10 Folie 11 Folie 12 Folie 13 Folie 14 Folie 15 Folie 16 Folie 17 Folie 18 Folie 19 Folie 20 Folie 21 Folie 22 Folie 23 Folie 24 Folie 25 Folie 26 Folie 27 Folie 28 Folie 29 Folie 30 Folie 31 Folie 32 Folie 33 Folie 34 Folie 35 Folie 36 Folie 37 Folie 38 Folie 39 Folie 40 Folie 41 Folie 42 Folie 43 Folie 44 Folie 45 Folie 46 Folie 47 Folie 48 Folie 49 Folie 50 Folie 51 Folie 52 Folie 53 Folie 54 Folie 55

About

Ergebnisse der Masterarbeit mit dem Titel "Adaption von MCTS und AlphaZero für Spiele mit imperfekter Information am Beispiel Doppelkopf" an der Fernuniversität in Hagen

Topics

Resources

License

Stars

Watchers

Forks