Real-time planning and learning in the "Settlers of Catan" strategy game
Δεν υπάρχει διαθέσιμη μικρογραφία
Ημερομηνία
2014
Συγγραφείς
Panousis Konstantinos
Πανουσης Κωνσταντινος-Παναγιωτης
Τίτλος Εφημερίδας
Περιοδικό ISSN
Τίτλος τόμου
Εκδότης
Πολυτεχνείο Κρήτης
Περίληψη
Ο αλγόριθμος Monte Carlo Tree Search (MCTS) είναι μια γενική μέθοδος για την λήψη βέλτιστων αποφάσεων.
Η μέθοδος αξιοποιεί τη λήψη (ουσιαστικά τυχαίων) δειγμάτων από τις πιθανές ενέργειες, και δημιουργεί ένα δέντρο αποφάσεων, μέσω του οποίου αναζητείται η βέλτιστη απόφαση.
Μετά την επιτυχημένη εφαρμογή της μεθόδου, στο παιχνίδι -δύο παικτών και τέλειας πληροφορίας- Go, και τις προσδοκίες που δημιούργησε, η επαρκής κατανόηση των πλεονεκτημάτων και των αδυναμιών του αλγορίθμου είναι ένα ζητούμενο.
Στην εργασία αυτή, εφαρμόζουμε τον αλγόριθμο MCTS, στο επιτραπέζιο παιχνίδι στρατηγικής Άποικοι του Κατάν, ένα παιχνίδι πολλών παικτών,μη-ντετερμινιστικό και μερικώς παρατηρήσιμο.
Αναπτύσσουμε και αξιολογούμε τρεις διαφορετικές παραλλαγές στο κομμάτι της δημιουργίας του δέντρου του αλγορίθμου: συγκεκριμένα τη μέθοδο UCT, τη μέθοδο Bayesian UCT και τη μέθοδο Value of Perfect Information (VPI).
Οι αλγόριθμοι αυτοί κατ'ουσίαν επιχειρούν να ισορροπήσουν το δίλημμα μεταξύ εξερεύνησης (exploration) και εκμετάλλευσης(exploitation) στο συγκεκριμένο τομέα.
Επιπρόσθετα, δημιουργήσαμε διάφορες ευριστικές στρατηγικές για να μπορεί ο πράκτορας μας να ανταπεξέλθει σε συγκεκριμένες καταστάσεις που μπορούν να εμφανιστούν και οι οποίες απορρέουν από τους κανόνες του παιχνιδιού· σε αντίθεση με τους περισσότερους αυτοματοποιημένους παίκτες για τους Αποίκους του Κατάν, η υλοποίηση μας προσφέρει ένα (έστω απλό) σχέδιο διαπραγμάτευσης για να έχει ο πράκτορας μας τη δυνατότητα να ανταλλάσει πόρους με άλλους παίκτες.
Αξίζει να σημειωθεί ότι είναι η πρώτη φορά που η μέθοδος Bayesian UCT χρησιμοποιείται στον αλγόριθμο MCTS στο παιχνίδι Άποικοι του Κατάν και είναι επίσης η πρώτη φορά που η μέθοδος VPI χρησιμοποείται σε σύζευξη με τον αλγόριθμο MCTS γενικότερα.
Δοκιμάζουμε και αξιολογούμε τους πρακτόρες μας με βάση την αποτελεσματικότητα τους σε μεταξύ τους αναμετρήσεις, αλλά και σε αναμετρήσεις τους ενάντια σε υπαρκτές υλοποιήσεις άλλων αυτόνομων πρακτόρων, συμπεριλαμβανομένης και της ισχυρότερης υπάρχουσας ευρετικής υλοποίησης αυτόνομου πράκτορα.
Τα αποτελέσματα μας είναι ενθαρρυντικά, και υποδηλώνουν ότι ο αλγόριθμος MCTS μπορεί να επωφεληθεί από τις παραλλαγές που υλοποιήσαμε.
Ειδικά ο πράκτορας που χρησιμοποιεί την μέθοδο VPI, εμφανίζεται να είναι αρκετά ανταγωνιστικός, και η απόδοση του μπορεί να συγκριθεί με την απόδοση άλλων υπαρκτών αυτόνομων παικτών του παιχνιδιού Άποικοι του Κατάν, παρόλο που οι υπολογιστικοί πόροι που αξιοποιεί ήταν ιδιαίτερα περιορισμένοι σε σχέση με αυτούς που αξιοποιούν οι αντίπαλοι του.
Περιγραφή
Διπλωματική Εργασία που υποβήθηκε στη Σχολή ΗΜΜΥ για την ολοκλήρωση των προϋποθέσεων για τη λήψη του προπτυχιακού τίτλου σπουδών.
Λέξεις-κλειδιά
Multi-Agent Learning, Learning, Monte Carlo Tree Search, AI (Artificial intelligence), Artificial thinking, Electronic brains, Intellectronics, Intelligence, Artificial, Intelligent machines, Machine intelligence, Thinking, Artificial, artificial intelligence, ai artificial intelligence, artificial thinking, electronic brains, intellectronics, intelligence artificial, intelligent machines, machine intelligence, thinking artificial
Παραπομπή
Κωνσταντίνος-Παναγιώτης Πανούσης, "Σχεδιασμός και μάθηση σε πραγματικό χρόνο για το παιχνίδι στρατηγικής "Άποικοι του Κατάν"", Διπλωματική Εργασία, Σχολή Ηλεκτρονικών Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2014