Εξέλιξη Κομματιού

1. Εισαγωγή στην Βάθυ Αναδρομική Μάθηση

  • Τι είναι το Αναδρομικό Μάθηση;
  • Η διαφορά μεταξύ Εποπτού, Χωρίς Εποπτή και Αναδρομικού Μαθήματος
  • Εφαρμογές του DRL σε ρομποτική, υγεία, χρηματοοικονομικό και λογιστικό
  • Κατανόηση του αλγορίθμου παρέμβασης agent-environment

2. Βασικά Θεμελίωμα του Αναδρομικού Μαθήματος

  • Markov Decision Processes (MDP)
  • State, Action, Reward, Policy και Value functions
  • Η αντιπαράθεση έρευνας vs. εκμετάλλευσης
  • Μέθοδοι Monte Carlo και Temporal-Difference (TD) learning

3. Εφαρμογή Βασικών Αλγορίθμων RL

  • Tabular methods: Dynamic Programming, Policy Evaluation και Iteration
  • Q-Learning και SARSA
  • Epsilon-greedy exploration και decaying strategies
  • Εφαρμογή RL περιβάλλοντων με OpenAI Gymnasium

4. Μετάβαση στην Βάθυ Αναδρομική Μάθηση

  • Οι περιορισμοί των tabular methods
  • Χρήση νευρωνικών δικτύων για function approximation
  • Deep Q-Network (DQN) architecture και workflow
  • Experience replay και target networks

5. Προηγμένες Αλγόριθμοι DRL

  • Double DQN, Dueling DQN και Prioritized Experience Replay
  • Policy Gradient Methods: REINFORCE algorithm
  • Actor-Critic architectures (A2C, A3C)
  • Proximal Policy Optimization (PPO)
  • Soft Actor-Critic (SAC)

6. Εργασία με συνεχή ενέργειες χώρων

  • Προκλήσεις στη συνεχή καθοδήγηση
  • Χρήση DDPG (Deep Deterministic Policy Gradient)
  • Twin Delayed DDPG (TD3)

7. Πρακτικά Εργαλεία και Πλατφόρμες

  • Χρήση Stable-Baselines3 και Ray RLlib
  • Logging και monitoring με TensorBoard
  • Hyperparameter tuning για DRL models

8. Μηχανική Αποδοχής και Σχεδίαση Περιβάλλοντος

  • Reward shaping και penalty balancing
  • Sim-to-real transfer learning concepts
  • Δημιουργία custom περιβάλλοντος σε Gymnasium

9. Μερικά Αναπτυξιακά Περιβάλλοντα και Γενίκευση

  • Διαχείριση ελλείψεων πληροφοριών σε POMDPs
  • Memory-based approaches χρησιμοποιώντας LSTMs και RNNs
  • Βελτίωση αντοχής και γενίκευσης agent

10. Θεωρία Παιγνίων και Πολυπλήθη Αναδρομική Μάθηση

  • Εισαγωγή σε πολυπλήθη περιβάλλοντα
  • Συνεργασία vs. ανταγωνισμός
  • Εφαρμογές σε adversarial training και strategy optimization

11. Σπουδή Περιπτώσεων και Πρακτικές Εφαρμογές

  • Αυτόνομη οδήγηση simulations
  • Δυναμική τιμολόγηση και χρηματοπιστωτικές trading strategies
  • Ρομποτική και βιομηχανική αυτομάτωση

12. Εξαλείφθεια προβλημάτων και Βελτιστοποίηση

  • Διάγνωση ασταθών εκπαιδεύσεων
  • Διαχείριση reward sparsity και overfitting
  • Scaling DRL models σε GPUs και distributed systems

13. Περίληψη και Επόμενα Βήματα

  • Περίληψη DRL architecture και κλειδιών αλγορίθμων
  • Trends βιομηχανίας και κατευθύνσεις έρευνας (π.χ., RLHF, hybrid models)
  • Περαιτέρω πόροι και υλικά ανάγνωσης

Απαιτήσεις

  • Εξοικείωση με την προγραμματισμό στο Python
  • Κατανόηση του Λογισμού και της Γραμμικής Άλγεβρας
  • Βασική γνώση των Πιθανοτήτων και της Στατιστικής
  • Εμπειρία στη δημιουργία μοντέλων μηχανικής μάθησης χρησιμοποιώντας Python και NumPy ή TensorFlow/PyTorch

Ακροατήριο

  • Προγραμματιστές που ενδιαφέρονται για AI και νοημός συστήματα
  • Επιστήμονες δεδομένων που έρχονται σε επαφή με πλαίσια reinforcement learning
  • Μηχανικοί μηχανικής μάθησης που δουλεύουν με αυτόνομα συστήματα
 21 Ώρες

Αριθμός συμμετέχοντων


Τιμή ανά συμμετοχαστή

Σχόλια (5)

Εφεξής Μαθήματα

Σχετικές Κατηγορίες