Επικοινωνήστε μαζί μας

Εξέλιξη Κομματιού

Εισαγωγή στην Ενισχυτική Μάθηση και την Πρακτορική ΤΝ

  • Λήψη αποφάσεων υπό αβεβαιότητα και διαδοχικός σχεδιασμός
  • Βασικά συστατικά της RL: πράκτορες, περιβάλλοντα, καταστάσεις και ανταμοιβές
  • Ο ρόλος της RL σε προσαρμοστικά και πρακτορικά συστήματα ΤΝ

Διαδικασίες Απόφασης Markov (MDPs)

  • Τυπικός ορισμός και ιδιότητες των MDPs
  • Συναρτήσεις αξίας, εξισώσεις Bellman και δυναμικός προγραμματισμός
  • Αξιολόγηση, βελτίωση και επανάληψη πολιτικής

Ενισχυτική Μάθηση χωρίς Μοντέλο

  • Μάθηση Monte Carlo και Διαφοράς-Χρόνου (TD)
  • Q-learning και SARSA
  • Πρακτική άσκηση: υλοποίηση μεθόδων RL σε πίνακες με Python

Βαθιά Ενισχυτική Μάθηση

  • Συνδυασμός νευρωνικών δικτύων με RL για προσέγγιση συνάρτησης
  • Βαθιά Δίκτυα Q (DQN) και επανάληψη εμπειρίας
  • Αρχιτεκτονικές Actor-Critic και κλίσεις πολιτικής
  • Πρακτική άσκηση: εκπαίδευση ενός πράκτορα χρησιμοποιώντας DQN και PPO με το Stable-Baselines3

Στρατηγικές Εξερεύνησης και Διαμόρφωση Ανταμοιβών

  • Εξισορρόπηση εξερεύνησης έναντι εκμετάλλευσης (ε-greedy, UCB, μέθοδοι εντροπίας)
  • Σχεδιασμός συναρτήσεων ανταμοιβής και αποφυγή ανεπιθύμητων συμπεριφορών
  • Διαμόρφωση ανταμοιβών και εκμάθηση με πρόγραμμα σπουδών

Προχωρημένα Θέματα στην RL και τη Λήψη Αποφάσεων

  • Ενισχυτική μάθηση πολλαπλών πρακτόρων και συνεργατικές στρατηγικές
  • Ιεραρχική ενισχυτική μάθηση και πλαίσιο επιλογών
  • Offline RL και μάθηση μέσω μίμησης για ασφαλέστερη ανάπτυξη

Περιβάλλοντα Προσομοίωσης και Αξιολόγηση

  • Χρήση του OpenAI Gym και προσαρμοσμένων περιβαλλόντων
  • Συνεχή έναντι διακριτών χώρων ενεργειών
  • Μετρικές για την απόδοση, τη σταθερότητα και την αποδοτικότητα δειγμάτων του πράκτορα

Ενσωμάτωση της RL σε Συστήματα Πρακτορικής ΤΝ

  • Συνδυασμός συλλογιστικής και RL σε υβριδικές αρχιτεκτονικές πρακτόρων
  • Ενσωμάτωση της ενισχυτικής μάθησης με πράκτορες που χρησιμοποιούν εργαλεία
  • Λειτουργικές εκτιμήσεις για κλιμάκωση και ανάπτυξη

Τελικό Έργο Κορύφωσης

  • Σχεδίαση και υλοποίηση ενός πράκτορα ενισχυτικής μάθησης για μια προσομοιωμένη εργασία
  • Ανάλυση της απόδοσης εκπαίδευσης και βελτιστοποίηση υπερπαραμέτρων
  • Επίδειξη προσαρμοστικής συμπεριφοράς και λήψης αποφάσεων σε πλαίσιο Πρακτορικής ΤΝ

Σύνοψη και Επόμενα Βήματα

Απαιτήσεις

  • Ισχυρή επάρκεια στον προγραμματισμό Python
  • Στερεή κατανόηση των εννοιών μηχανικής μάθησης και βαθιάς μάθησης
  • Εξοικείωση με τη γραμμική άλγεβρα, τις πιθανότητες και τις βασικές μεθόδους βελτιστοποίησης

Ακροατήριο

  • Μηχανικοί ενισχυτικής μάθησης και εφαρμοσμένοι ερευνητές ΤΝ
  • Προγραμματιστές ρομποτικής και αυτοματισμών
  • Ομάδες μηχανικών που εργάζονται σε προσαρμοστικά και πρακτορικά συστήματα ΤΝ
 28 Ώρες

Αριθμός συμμετέχοντων


Τιμή ανά συμμετέχοντα

Σχόλια (3)

Εφεξής Μαθήματα

Σχετικές Κατηγορίες