Εξέλιξη Κομματιού
1. Εισαγωγή στην Βάθυ Αναδρομική Μάθηση
- Τι είναι το Αναδρομικό Μάθηση;
- Η διαφορά μεταξύ Εποπτού, Χωρίς Εποπτή και Αναδρομικού Μαθήματος
- Εφαρμογές του DRL σε ρομποτική, υγεία, χρηματοοικονομικό και λογιστικό
- Κατανόηση του αλγορίθμου παρέμβασης agent-environment
2. Βασικά Θεμελίωμα του Αναδρομικού Μαθήματος
- Markov Decision Processes (MDP)
- State, Action, Reward, Policy και Value functions
- Η αντιπαράθεση έρευνας vs. εκμετάλλευσης
- Μέθοδοι Monte Carlo και Temporal-Difference (TD) learning
3. Εφαρμογή Βασικών Αλγορίθμων RL
- Tabular methods: Dynamic Programming, Policy Evaluation και Iteration
- Q-Learning και SARSA
- Epsilon-greedy exploration και decaying strategies
- Εφαρμογή RL περιβάλλοντων με OpenAI Gymnasium
4. Μετάβαση στην Βάθυ Αναδρομική Μάθηση
- Οι περιορισμοί των tabular methods
- Χρήση νευρωνικών δικτύων για function approximation
- Deep Q-Network (DQN) architecture και workflow
- Experience replay και target networks
5. Προηγμένες Αλγόριθμοι DRL
- Double DQN, Dueling DQN και Prioritized Experience Replay
- Policy Gradient Methods: REINFORCE algorithm
- Actor-Critic architectures (A2C, A3C)
- Proximal Policy Optimization (PPO)
- Soft Actor-Critic (SAC)
6. Εργασία με συνεχή ενέργειες χώρων
- Προκλήσεις στη συνεχή καθοδήγηση
- Χρήση DDPG (Deep Deterministic Policy Gradient)
- Twin Delayed DDPG (TD3)
7. Πρακτικά Εργαλεία και Πλατφόρμες
- Χρήση Stable-Baselines3 και Ray RLlib
- Logging και monitoring με TensorBoard
- Hyperparameter tuning για DRL models
8. Μηχανική Αποδοχής και Σχεδίαση Περιβάλλοντος
- Reward shaping και penalty balancing
- Sim-to-real transfer learning concepts
- Δημιουργία custom περιβάλλοντος σε Gymnasium
9. Μερικά Αναπτυξιακά Περιβάλλοντα και Γενίκευση
- Διαχείριση ελλείψεων πληροφοριών σε POMDPs
- Memory-based approaches χρησιμοποιώντας LSTMs και RNNs
- Βελτίωση αντοχής και γενίκευσης agent
10. Θεωρία Παιγνίων και Πολυπλήθη Αναδρομική Μάθηση
- Εισαγωγή σε πολυπλήθη περιβάλλοντα
- Συνεργασία vs. ανταγωνισμός
- Εφαρμογές σε adversarial training και strategy optimization
11. Σπουδή Περιπτώσεων και Πρακτικές Εφαρμογές
- Αυτόνομη οδήγηση simulations
- Δυναμική τιμολόγηση και χρηματοπιστωτικές trading strategies
- Ρομποτική και βιομηχανική αυτομάτωση
12. Εξαλείφθεια προβλημάτων και Βελτιστοποίηση
- Διάγνωση ασταθών εκπαιδεύσεων
- Διαχείριση reward sparsity και overfitting
- Scaling DRL models σε GPUs και distributed systems
13. Περίληψη και Επόμενα Βήματα
- Περίληψη DRL architecture και κλειδιών αλγορίθμων
- Trends βιομηχανίας και κατευθύνσεις έρευνας (π.χ., RLHF, hybrid models)
- Περαιτέρω πόροι και υλικά ανάγνωσης
Απαιτήσεις
- Εξοικείωση με την προγραμματισμό στο Python
- Κατανόηση του Λογισμού και της Γραμμικής Άλγεβρας
- Βασική γνώση των Πιθανοτήτων και της Στατιστικής
- Εμπειρία στη δημιουργία μοντέλων μηχανικής μάθησης χρησιμοποιώντας Python και NumPy ή TensorFlow/PyTorch
Ακροατήριο
- Προγραμματιστές που ενδιαφέρονται για AI και νοημός συστήματα
- Επιστήμονες δεδομένων που έρχονται σε επαφή με πλαίσια reinforcement learning
- Μηχανικοί μηχανικής μάθησης που δουλεύουν με αυτόνομα συστήματα
Σχόλια (3)
Μου άρεσαν πολύ τα τελικά όπου είχαμε την ευκαιρία να παίξουμε με το CHAT GPT. Η αίθουσα δεν ήταν κατά κάποιον τρόπο η καλύτερη γι' αυτό - αντί να υπάρχει μια μεγάλη τράπεζα, δυο μικρές θα βοήθησαν και θα μπορούσαμε να σχηματίσουμε μικρότερους ομάδες για διαδικασίες υποστήριξης.
Nola - Laramie County Community College
Κομμάτι - Artificial Intelligence (AI) Overview
Μηχανική Μετάφραση
Εργασία από τη βάση με εστιασμένο τρόπο και μετάβαση στην εφαρμογή περιπτώσεων στο ίδιο χρονικό διάστημα
Maggie Webb - Department of Jobs, Regions, and Precincts
Κομμάτι - Artificial Neural Networks, Machine Learning, Deep Thinking
Μηχανική Μετάφραση
Ότι χρησιμοποιούσε πραγματικά δεδομένα επιχειρήσεων. Ο καθηγητής είχε μια πολύ καλή προσέγγιση, κάνοντας τους εκπαιδευόμενους να συμμετέχουν και να ανταγωνίζονται
Jimena Esquivel - Zaklad Uslugowy Hakoman Andrzej Cybulski
Κομμάτι - Applied AI from Scratch in Python
Μηχανική Μετάφραση