Matches in SemOpenAlex for { <https://semopenalex.org/work/W2594886737> ?p ?o ?g. }
- W2594886737 abstract "Η παρούσα διατριβή πραγματεύεται το πρόβλημα της ανάπτυξης ευφυών πρακτόρων, οι οποίοι έχουν την ικανότητα να αποκτούν δεξιότητες αυτόνομα. Ένας ευφυής πράκτορας δρα σε ένα άγνωστο περιβάλλον, κατευθυνόμενος προς την επίτευξη ενός συγκεκριμένου στόχου. Μέσω της αλληλεπίδρασης του με το περιβάλλον, ο πράκτορας λαμβάνει ένα τεράστιο όγκο πληροφοριών, που του δίνει τη δυνατότητα να αντιλαμβάνεται της συνέπειες των ενεργειών του, προσαρμόζοντας ανάλογα τη συμπεριφορά του. Στο πλαίσιο αυτό, η διατριβή επικεντρώνεται στην παρουσίαση μεθόδων Μηχανικής Μάθησης για την ανάπτυξη ευφυών πρακτόρων, εστιάζοντας σε τρεις βασικούς θεματικούς άξονες: α) προσεγγιστική ενισχυτική μάθηση, όπου η πολιτική του πράκτορα εκτιμάται και βελτιώνεται μέσω της προσέγγισης της συνάρτησης αξίας (Value Function), β) Μπεϋζιανή ενισχυτική μάθηση, όπου το πρόβλημα της ενισχυτικής μάθησης μοντελοποιείται ως ένα θεωρητικό πρόβλημα απόφασης, τοποθετώντας μια εκ των προτέρων κατανομή στο σύνολο των πιθανών Μαρκοβιανών Διαδικασιών Απόφασης (ΜΔΑ), και γ) Τεχνητή Νοημοσύνη σε Παίγνια, τα οποία αποτελούν δελεαστικά προβλήματα για την ανάπτυξη και μελέτη μεθοδολογιών μηχανικής μάθησης.Το πρώτο μέρος της διατριβής εστιάζει στο πρόβλημα της προσέγγισης της συνάρτησης αξίας, παρουσιάζοντας δυο διαφορετικές μεθοδολογίες. Αρχικά, προτείνουμε τη μέθοδο Relevance Vector Machine Temporal Difference (RVMTD), η οποία αποτελεί μια προηγμένη Μπεϋζιανή μεθοδολογία πυρήνων για την προσέγγιση της συνάρτησης αξίας, εφαρμόζοντας το μοντέλο παλινδρόμησης RVM. Η βασική ιδέα της προτεινόμενης μεθόδου είναι ο μετασχηματισμός του προβλήματος της εκτίμησης μιας πολιτικής σε ένα πρόβλημα παλινδρόμησης. Προκειμένου ο αλγόριθμος RVMTD να καταστεί εφαρμόσιμος σε προβλήματα μεγάλης κλίμακας, υιοθετήσαμε μια τεχνική αραιών πυρήνων πραγματικού χρόνου. Βασιζόμενοι στη συγκεκριμένη τεχνική, εξάγουμε αναδρομικούς κανόνες ενημέρωσης, χαμηλής πολυπλοκότητας, που επιτρέπουν την ανανέωση των παρατηρήσεων του μοντέλου μας σε πραγματικό χρόνο. Για την εκτίμηση των άγνωστων συντελεστών του μοντέλου, υιοθετήσαμε μια αραιή Μπεϋζιανή μεθοδολογία η οποία βελτιώνει την γενικευτική ικανότητα του μοντέλου. Στη συνέχεια, προτείνουμε έναν αλγόριθμο ενισχυτικής μάθησης, ο οποίος βασίζεται στο μοντέλο του περιβάλλοντος, διαχωρίζοντας σε πραγματικό χρόνο τον χώρο εισόδου σε ομάδες (clusters). Καθώς στο πρόβλημα της ενισχυτικής μάθησης τα δεδομένα καταφθάνουν με σειριακό τρόπο, για το πρόβλημα της ομαδοποίησης χρησιμοποιήσαμε μια εκδοχή πραγματικού χρόνου του βασικού αλγορίθμου EM. Με αυτόν τον τρόπο, επιτυγχάνουμε τη αυτόματη δημιουργία και ενημέρωση ένας συνόλου συναρτήσεων βάσης, που χρησιμοποιείται στο πρόβλημα της προσέγγισης της συνάρτησης αξίας. Τέλος, για την εκτίμηση των αγνώστων παραμέτρων του μοντέλου της συνάρτησης αξίας χρησιμοποιήσαμε τη μέθοδο των ελαχίστων τετραγώνων (least-squares solution).Το δεύτερο μέρος της διατριβής αντιμετωπίζει το πρόβλημα της Μπεϋζιανης ενισχυτικής μάθησης, όπου προτείνονται δύο καινοτόμες μεθοδολογίες. Πρώτα, παρουσιάζεται ο αλγόριθμος Linear Bayesian Reinforcement Learning (LBRL), ο οποίος θεμελιώνει την παρατήρηση ότι ένα Μπεϋζιανό γραμμικό (Γκαουσιανό) μοντέλο είναι σε θέση να προσεγγίζει με μεγάλη ακρίβεια την δυναμική του μοντέλου του περιβάλλοντος. Οι πολιτικές εκτιμώνται εφαρμόζοντας προσεγγιστικό δυναμικό προγραμματισμό (approximate dynamic programming) στο μοντέλο μετάβασης το όποιο έχει εξαχθεί από την εκ των υστέρων κατανομή. Η συγκεκριμένη προσεγγιστική τεχνική είναι γνωστή ως δειγματοληψία Thompson και προωθεί την εξερεύνηση αγνώστων περιβαλλόντων. Στη συνέχεια, προτείνεται ο αλγόριθμος Cover Tree Bayesian Reinforcement Learning (CTBRL), ο οποίος αποτελεί μια πραγματικού χρόνου Μπεϋζιανή προσέγγιση ενισχυτικής μάθησης βασιζόμενη σε μία δενδρική δομή. Η βασική ιδέα του αλγορίθμου CTBRL είναι η κατασκευή δένδρων κάλυψης (cover trees) με βάση τις παρατηρήσεις του περιβάλλοντος, τα οποία παραμένουν αποδοτικά σε χώρους υψηλής διάστασης και χρησιμοποιούνται για την εκτίμηση της δυναμικής του προς εξέταση περιβάλλοντος. Παίρνοντας ένα δείγμα από την εκ των υστέρων κατανομή, λαμβάνουμε ένα τμηματικά, γραμμικό (piecewise linear) Γκαουσιανό μοντέλο της δυναμικής του περιβάλλοντος. Όπως και στην περίπτωση του αλγορίθμου LBRL, συνδυάζουμε τη δειγματοληψία (Thompson) με τον προσεγγιστικό δυναμικό προγραμματισμό, λαμβάνοντας αποδοτικές πολιτικές σε άγνωστα περιβάλλοντα. Τα κύρια πλεονεκτήματα της συγκεκριμένης μεθόδου είναι η αποδοτικότητά της καθώς επίσης και η ευελιξία της, καθιστώντας την κατάλληλη για προβλήματα ενισχυτικής μάθησης με συνεχείς χώρους καταστάσεων.Το τρίτο και τελευταίο μέρος της παρούσας διατριβής, επικεντρώνεται στο πρόβλημα της ανάπτυξης ευφυών πρακτόρων για δύο δελεαστικά και συνάμα υψηλών απαιτήσεων παίγνια, το Ms. PacMan και AngryBirds. Αρχικά, προτείνουμε τον πράκτορα RL-PacMan, ο οποίος βασίζεται σε μια περιγραφική και ταυτόχρονα περιεκτική αναπαράσταση του χώρου καταστάσεων. Η προτεινόμενη αναπαράσταση κωδικοποιεί την σκηνή του παιχνιδιού με τέτοιο τρόπο έτσι ώστε να δίνεται η δυνατότητα στο πράκτορα να διακρίνει και να αντιμετωπίσει διαφορετικές καταστάσεις. Για την εξεύρεση μίας καλής πολιτικής, χρησιμοποιήσαμε τον αλγόριθμο ενισχυτικής μάθησης SARSA(λ). Η συγκεκριμένη μελέτη, επιδεικνύει ότι η σχεδίαση μιας αποδοτικής αναπαράστασης είναι σημαντική για την ανάπτυξη ενός αποδοτικού πράκτορα. Τέλος, προτείνουμε τον αλγόριθμο AngryBER ο οποίος βασίζεται σε μια αποδοτική δενδρική δομή για την αναπαράσταση της σκηνής του παιχνιδιού. Η συγκεκριμένη δομή έχει το πλεονέκτημα της εξαγωγής πληροφοριακών χαρακτηριστικών και μετατρέπει το πρόβλημα της επίλυσης του παιχνιδιού σε ένα πρόβλημα παλινδρόμησης. Πιο συγκεκριμένα, χρησιμοποιούμε ένα σύνολο από Μπεϋζιανούς παλινδρομητές για την πρόβλεψη της ανταμοιβής μίας ενέργειας, όπου κάθε ζεύγος ''υλικό κατασκευής αντικειμένου'' και ''τύπος πουλιού'' έχουν το δικό τους μοντέλο παλινδρόμησης. Μετά το πέρας κάθε βολής, το αντίστοιχο μοντέλο παλινδρόμησης ενημερώνεται επαυξητικά, σε κλειστή μορφή. Ο πράκτορας AngryBER έλαβε μέρος στον παγκόσμιο διαγωνισμό AIBIRDS 2014, τερματίζοντας στη 2η θέση μεταξύ των 12 συμμετεχόντων." @default.
- W2594886737 created "2017-03-16" @default.
- W2594886737 creator A5057837738 @default.
- W2594886737 creator A5079375197 @default.
- W2594886737 date "2021-09-06" @default.
- W2594886737 modified "2023-09-23" @default.
- W2594886737 title "Machine learning for intelligent agents" @default.
- W2594886737 cites W113028485 @default.
- W2594886737 cites W115446000 @default.
- W2594886737 cites W1460549585 @default.
- W2594886737 cites W1497039698 @default.
- W2594886737 cites W1505937442 @default.
- W2594886737 cites W1508339223 @default.
- W2594886737 cites W1537100889 @default.
- W2594886737 cites W1550698229 @default.
- W2594886737 cites W1576452626 @default.
- W2594886737 cites W1579271636 @default.
- W2594886737 cites W1580425441 @default.
- W2594886737 cites W1582436621 @default.
- W2594886737 cites W1583882820 @default.
- W2594886737 cites W1585603966 @default.
- W2594886737 cites W1585754671 @default.
- W2594886737 cites W1591803298 @default.
- W2594886737 cites W1625390266 @default.
- W2594886737 cites W1648445109 @default.
- W2594886737 cites W1705902632 @default.
- W2594886737 cites W170657672 @default.
- W2594886737 cites W183249136 @default.
- W2594886737 cites W1850488217 @default.
- W2594886737 cites W1911551976 @default.
- W2594886737 cites W1969483458 @default.
- W2594886737 cites W1972085072 @default.
- W2594886737 cites W1989436473 @default.
- W2594886737 cites W1996625075 @default.
- W2594886737 cites W2001272401 @default.
- W2594886737 cites W2003386389 @default.
- W2594886737 cites W2006258746 @default.
- W2594886737 cites W2011233848 @default.
- W2594886737 cites W2014932765 @default.
- W2594886737 cites W2038503397 @default.
- W2594886737 cites W2039522160 @default.
- W2594886737 cites W2046513829 @default.
- W2594886737 cites W2047555270 @default.
- W2594886737 cites W2049633694 @default.
- W2594886737 cites W2055033075 @default.
- W2594886737 cites W2057273749 @default.
- W2594886737 cites W2065339974 @default.
- W2594886737 cites W2071814471 @default.
- W2594886737 cites W2073384958 @default.
- W2594886737 cites W2077052576 @default.
- W2594886737 cites W2093323487 @default.
- W2594886737 cites W2097778153 @default.
- W2594886737 cites W2098102888 @default.
- W2594886737 cites W2100785108 @default.
- W2594886737 cites W2103013841 @default.
- W2594886737 cites W2104533781 @default.
- W2594886737 cites W2105474305 @default.
- W2594886737 cites W2105749772 @default.
- W2594886737 cites W2106008679 @default.
- W2594886737 cites W2106261932 @default.
- W2594886737 cites W2107726111 @default.
- W2594886737 cites W2113913482 @default.
- W2594886737 cites W2114735315 @default.
- W2594886737 cites W2116038421 @default.
- W2594886737 cites W2118556122 @default.
- W2594886737 cites W2119567691 @default.
- W2594886737 cites W2120346334 @default.
- W2594886737 cites W2121863487 @default.
- W2594886737 cites W2123372395 @default.
- W2594886737 cites W2123742287 @default.
- W2594886737 cites W2123979492 @default.
- W2594886737 cites W2124352385 @default.
- W2594886737 cites W2125710232 @default.
- W2594886737 cites W2126316555 @default.
- W2594886737 cites W2126848223 @default.
- W2594886737 cites W2129442128 @default.
- W2594886737 cites W2130005627 @default.
- W2594886737 cites W2130801532 @default.
- W2594886737 cites W2132713246 @default.
- W2594886737 cites W2133296809 @default.
- W2594886737 cites W2133419240 @default.
- W2594886737 cites W2134540127 @default.
- W2594886737 cites W2134708176 @default.
- W2594886737 cites W2134807560 @default.
- W2594886737 cites W2136302345 @default.
- W2594886737 cites W2137509429 @default.
- W2594886737 cites W2138242398 @default.
- W2594886737 cites W2138289776 @default.
- W2594886737 cites W2139418546 @default.
- W2594886737 cites W2140135625 @default.
- W2594886737 cites W2150923691 @default.
- W2594886737 cites W2151268438 @default.
- W2594886737 cites W2154032554 @default.
- W2594886737 cites W2155817051 @default.
- W2594886737 cites W2156974606 @default.
- W2594886737 cites W2158984235 @default.
- W2594886737 cites W2160808139 @default.
- W2594886737 cites W2161795906 @default.
- W2594886737 cites W2163294786 @default.
- W2594886737 cites W2166471851 @default.