Εξέλιξη Κομματιού
1. Εισαγωγή στην Βάθυ Αναδρομική Μάθηση
- Τι είναι το Αναδρομικό Μάθηση;
- Η διαφορά μεταξύ Εποπτού, Χωρίς Εποπτή και Αναδρομικού Μαθήματος
- Εφαρμογές του DRL σε ρομποτική, υγεία, χρηματοοικονομικό και λογιστικό
- Κατανόηση του αλγορίθμου παρέμβασης agent-environment
2. Βασικά Θεμελίωμα του Αναδρομικού Μαθήματος
- Markov Decision Processes (MDP)
- State, Action, Reward, Policy και Value functions
- Η αντιπαράθεση έρευνας vs. εκμετάλλευσης
- Μέθοδοι Monte Carlo και Temporal-Difference (TD) learning
3. Εφαρμογή Βασικών Αλγορίθμων RL
- Tabular methods: Dynamic Programming, Policy Evaluation και Iteration
- Q-Learning και SARSA
- Epsilon-greedy exploration και decaying strategies
- Εφαρμογή RL περιβάλλοντων με OpenAI Gymnasium
4. Μετάβαση στην Βάθυ Αναδρομική Μάθηση
- Οι περιορισμοί των tabular methods
- Χρήση νευρωνικών δικτύων για function approximation
- Deep Q-Network (DQN) architecture και workflow
- Experience replay και target networks
5. Προηγμένες Αλγόριθμοι DRL
- Double DQN, Dueling DQN και Prioritized Experience Replay
- Policy Gradient Methods: REINFORCE algorithm
- Actor-Critic architectures (A2C, A3C)
- Proximal Policy Optimization (PPO)
- Soft Actor-Critic (SAC)
6. Εργασία με συνεχή ενέργειες χώρων
- Προκλήσεις στη συνεχή καθοδήγηση
- Χρήση DDPG (Deep Deterministic Policy Gradient)
- Twin Delayed DDPG (TD3)
7. Πρακτικά Εργαλεία και Πλατφόρμες
- Χρήση Stable-Baselines3 και Ray RLlib
- Logging και monitoring με TensorBoard
- Hyperparameter tuning για DRL models
8. Μηχανική Αποδοχής και Σχεδίαση Περιβάλλοντος
- Reward shaping και penalty balancing
- Sim-to-real transfer learning concepts
- Δημιουργία custom περιβάλλοντος σε Gymnasium
9. Μερικά Αναπτυξιακά Περιβάλλοντα και Γενίκευση
- Διαχείριση ελλείψεων πληροφοριών σε POMDPs
- Memory-based approaches χρησιμοποιώντας LSTMs και RNNs
- Βελτίωση αντοχής και γενίκευσης agent
10. Θεωρία Παιγνίων και Πολυπλήθη Αναδρομική Μάθηση
- Εισαγωγή σε πολυπλήθη περιβάλλοντα
- Συνεργασία vs. ανταγωνισμός
- Εφαρμογές σε adversarial training και strategy optimization
11. Σπουδή Περιπτώσεων και Πρακτικές Εφαρμογές
- Αυτόνομη οδήγηση simulations
- Δυναμική τιμολόγηση και χρηματοπιστωτικές trading strategies
- Ρομποτική και βιομηχανική αυτομάτωση
12. Εξαλείφθεια προβλημάτων και Βελτιστοποίηση
- Διάγνωση ασταθών εκπαιδεύσεων
- Διαχείριση reward sparsity και overfitting
- Scaling DRL models σε GPUs και distributed systems
13. Περίληψη και Επόμενα Βήματα
- Περίληψη DRL architecture και κλειδιών αλγορίθμων
- Trends βιομηχανίας και κατευθύνσεις έρευνας (π.χ., RLHF, hybrid models)
- Περαιτέρω πόροι και υλικά ανάγνωσης
Απαιτήσεις
- Εξοικείωση με την προγραμματισμό στο Python
- Κατανόηση του Λογισμού και της Γραμμικής Άλγεβρας
- Βασική γνώση των Πιθανοτήτων και της Στατιστικής
- Εμπειρία στη δημιουργία μοντέλων μηχανικής μάθησης χρησιμοποιώντας Python και NumPy ή TensorFlow/PyTorch
Ακροατήριο
- Προγραμματιστές που ενδιαφέρονται για AI και νοημός συστήματα
- Επιστήμονες δεδομένων που έρχονται σε επαφή με πλαίσια reinforcement learning
- Μηχανικοί μηχανικής μάθησης που δουλεύουν με αυτόνομα συστήματα
Σχόλια (5)
Ο Χάντερ είναι υπέροχος, πολύ συναρπαστικός, εξαιρετικά γνώστης και ευγενικός. Πολύ μπράβο.
Rick Johnson - Laramie County Community College
Κομμάτι - Artificial Intelligence (AI) Overview
Μηχανική Μετάφραση
Very flexible.
Frank Ueltzhoffer
Κομμάτι - Artificial Neural Networks, Machine Learning and Deep Thinking
Μηχανική Μετάφραση
I liked the new insights in deep machine learning.
Josip Arneric
Κομμάτι - Neural Network in R
Μηχανική Μετάφραση
Ann created a great environment to ask questions and learn. We had a lot of fun and also learned a lot at the same time.
Gudrun Bickelq
Κομμάτι - Introduction to the use of neural networks
Μηχανική Μετάφραση
It was very interactive and more relaxed and informal than expected. We covered lots of topics in the time and the trainer was always receptive to talking more in detail or more generally about the topics and how they were related. I feel the training has given me the tools to continue learning as opposed to it being a one off session where learning stops once you've finished which is very important given the scale and complexity of the topic.
Jonathan Blease
Κομμάτι - Artificial Neural Networks, Machine Learning, Deep Thinking
Μηχανική Μετάφραση