Εξέλιξη Κομματιού
Εισαγωγή στην Ενισχυτική Μάθηση και την Πρακτορική ΤΝ
- Λήψη αποφάσεων υπό αβεβαιότητα και διαδοχικός σχεδιασμός
- Βασικά συστατικά της RL: πράκτορες, περιβάλλοντα, καταστάσεις και ανταμοιβές
- Ο ρόλος της RL σε προσαρμοστικά και πρακτορικά συστήματα ΤΝ
Διαδικασίες Απόφασης Markov (MDPs)
- Τυπικός ορισμός και ιδιότητες των MDPs
- Συναρτήσεις αξίας, εξισώσεις Bellman και δυναμικός προγραμματισμός
- Αξιολόγηση, βελτίωση και επανάληψη πολιτικής
Ενισχυτική Μάθηση χωρίς Μοντέλο
- Μάθηση Monte Carlo και Διαφοράς-Χρόνου (TD)
- Q-learning και SARSA
- Πρακτική άσκηση: υλοποίηση μεθόδων RL σε πίνακες με Python
Βαθιά Ενισχυτική Μάθηση
- Συνδυασμός νευρωνικών δικτύων με RL για προσέγγιση συνάρτησης
- Βαθιά Δίκτυα Q (DQN) και επανάληψη εμπειρίας
- Αρχιτεκτονικές Actor-Critic και κλίσεις πολιτικής
- Πρακτική άσκηση: εκπαίδευση ενός πράκτορα χρησιμοποιώντας DQN και PPO με το Stable-Baselines3
Στρατηγικές Εξερεύνησης και Διαμόρφωση Ανταμοιβών
- Εξισορρόπηση εξερεύνησης έναντι εκμετάλλευσης (ε-greedy, UCB, μέθοδοι εντροπίας)
- Σχεδιασμός συναρτήσεων ανταμοιβής και αποφυγή ανεπιθύμητων συμπεριφορών
- Διαμόρφωση ανταμοιβών και εκμάθηση με πρόγραμμα σπουδών
Προχωρημένα Θέματα στην RL και τη Λήψη Αποφάσεων
- Ενισχυτική μάθηση πολλαπλών πρακτόρων και συνεργατικές στρατηγικές
- Ιεραρχική ενισχυτική μάθηση και πλαίσιο επιλογών
- Offline RL και μάθηση μέσω μίμησης για ασφαλέστερη ανάπτυξη
Περιβάλλοντα Προσομοίωσης και Αξιολόγηση
- Χρήση του OpenAI Gym και προσαρμοσμένων περιβαλλόντων
- Συνεχή έναντι διακριτών χώρων ενεργειών
- Μετρικές για την απόδοση, τη σταθερότητα και την αποδοτικότητα δειγμάτων του πράκτορα
Ενσωμάτωση της RL σε Συστήματα Πρακτορικής ΤΝ
- Συνδυασμός συλλογιστικής και RL σε υβριδικές αρχιτεκτονικές πρακτόρων
- Ενσωμάτωση της ενισχυτικής μάθησης με πράκτορες που χρησιμοποιούν εργαλεία
- Λειτουργικές εκτιμήσεις για κλιμάκωση και ανάπτυξη
Τελικό Έργο Κορύφωσης
- Σχεδίαση και υλοποίηση ενός πράκτορα ενισχυτικής μάθησης για μια προσομοιωμένη εργασία
- Ανάλυση της απόδοσης εκπαίδευσης και βελτιστοποίηση υπερπαραμέτρων
- Επίδειξη προσαρμοστικής συμπεριφοράς και λήψης αποφάσεων σε πλαίσιο Πρακτορικής ΤΝ
Σύνοψη και Επόμενα Βήματα
Απαιτήσεις
- Ισχυρή επάρκεια στον προγραμματισμό Python
- Στερεή κατανόηση των εννοιών μηχανικής μάθησης και βαθιάς μάθησης
- Εξοικείωση με τη γραμμική άλγεβρα, τις πιθανότητες και τις βασικές μεθόδους βελτιστοποίησης
Ακροατήριο
- Μηχανικοί ενισχυτικής μάθησης και εφαρμοσμένοι ερευνητές ΤΝ
- Προγραμματιστές ρομποτικής και αυτοματισμών
- Ομάδες μηχανικών που εργάζονται σε προσαρμοστικά και πρακτορικά συστήματα ΤΝ
Σχόλια (3)
Ο εκπαιδευτικός είναι υπομονετικός και πολύ βοηθητικός. Γνώριζε πολύ καλά το θέμα.
CLIFFORD TABARES - Universal Leaf Philippines, Inc.
Κομμάτι - Agentic AI for Business Automation: Use Cases & Integration
Μηχανική Μετάφραση
Καλό μείγμα γνώσης και πράξης
Ion Mironescu - Facultatea S.A.I.A.P.M.
Κομμάτι - Agentic AI for Enterprise Applications
Μηχανική Μετάφραση
Η μίξη θεωρίας και πράξης καθώς και των υψηλόβαθμων και των χαμηλόβαθμων προοπτικών
Ion Mironescu - Facultatea S.A.I.A.P.M.
Κομμάτι - Autonomous Decision-Making with Agentic AI
Μηχανική Μετάφραση