Εξέλιξη Κομματιού
Μια Εισαγωγή στην Μηχανική Μάθηση
- Τύποι μηχανικής μάθησης – εποπτευόμενη αντί σε μη εποπτευόμενη
- Από τη στατιστική μάθηση στη μηχανική μάθηση
- Το ρεύμα εξόρυξης δεδομένων: κατανόηση του επιχειρηματικού πλαισίου, προετοιμασία δεδομένων, μοντελοποίηση, εφαρμογή
- Επιλογή του κατάλληλου αλγόριθμου για την άσκηση
- Η υπερημίτονη και το εμπορικό εμφύλιο προσαρμογής-ακρίβειας (bias-variance tradeoff)
Εισαγωγή στις Βιβλιοθήκες Python και ML
- Γιατί χρησιμοποιούμε γλώσσες προγραμματισμού για ΜΜ
- Επιλογή μεταξύ R και Python
- Εισαγωγή στην Python και Jupyter Notebooks
- Βιβλιοθήκες Python: pandas, NumPy, scikit-learn, matplotlib, seaborn
Δοκιμασία και Αξιολόγηση Αλγορίθμων ML
- Γενίκευση, υπερημίτονη και επαλήθευση μοντέλου
- Στρατηγικές αξιολόγησης: holdout, cross-validation, bootstrapping
- Μετρικές για προβλήματα προσαρμογής (regression): ME, MSE, RMSE, MAPE
- Μετρικές για κατηγορικά προβλήματα: ακρίβεια, μπλενθυρό τάξης (confusion matrix), άρθρωμα-μονοδιάστατες κλάσεις
- Οπτική αναπαράσταση επίδοσης μοντέλου: προφιλάκτη γεφυρώματος (profit curve), ROC καμπύλη, lift καμπύλη
- Επιλογή μοντέλου και grid search για ανασυνόδευση (tuning)
Προετοιμασία Δεδομένων
- Εισαγωγή και αποθήκευση δεδομένων σε Python
- Εξερευνητική ανάλυση και επιστατιστικά στοιχεία (summary statistics)
- Χειρισμός ημι-δεικτών τιμών και αφύλαστων δεδομένων (outliers)
- Προτυποποίηση, κανονικοποίηση και μετατροπή
- Ανάδειξη ποιότητας δεδομένων και ανάδειξη δεδομένων (data wrangling) με pandas
Αλγόριθμοι Κατηγοριοποίησης
- Δυαδική αντί σε πολλαπλή κατηγοριοποίηση (binary vs multiclass classification)
- Λογιστική παλινδρόμηση και διάκριση συναρτήσεων
- Απλοϊκή Βέϊς (Naïve Bayes), k-γείτονες ανά πρόσωπο (k-nearest neighbors)
- Δέντρα αποφάσεων: CART, Random Forests, Bagging, Boosting, XGBoost
- Μηχανής υποστήριξης κανόνων (Support Vector Machines) και πυκνά (kernels)
- Τεχνικές συγκομβωτικής μάθησης (ensemble learning techniques)
Προσαρμογή και Αριθμητική Πρόβλεψη
- Ελάχιστα τετραγώνια (least squares) και επιλογή μεταβλητών
- Μέθοδοι ρυθμίζουσας παραμέτρωσης: L1, L2
- Πολυώνυμη παλινδρόμηση και μη γραμμικά μοντέλα (nonlinear models)
- Δέντρα προσαρμογής και splines
Νευρωνικά Δίκτυα
- Εισαγωγή στα νευρωνικά δίκτυα και τη βαθιά μάθηση (deep learning)
- Συναρτήσεις ενεργοποίησης, στρώματα, και backpropagation
- Πολυστρωμάτια περιφερειακά (Multilayer perceptrons - MLP)
- Χρήση TensorFlow ή PyTorch για βασικές μοντελοποιήσεις νευρωνικών δικτύων
- Νευρωνικά δίκτυα για κατηγοριοποίηση και προσαρμογή (regression)
Πρόβλεψη Πώλησης και Προϊκανόνιση (Predictive Analytics)
- Χρονοσειρές αντί σε προσαρμογή-βασισμένη πρόβλεψη
- Χειρισμός ουρώδων και τάσης δεδομένων (seasonal and trend-based data)
- Κατασκευή μοντέλου πρόβλεψης πώλησης χρησιμοποιώντας τεχνικές ML
- Αξιολόγηση της ακρίβειας και άρθρωμα-μονοδιάστατης πρόβλεψης (forecast accuracy and uncertainty)
- Επιχειρηματική ερμηνεία και ανακοίνωση των αποτελεσμάτων
Μη Εποπτευόμενη Μάθηση
- Τεχνικές κατάτμησης: k-means, k-medoids, iεραρχική κατάτμηση (hierarchical clustering), SOMs
- Μείωση διαφοροποιημένότητας: PCA, παραγοντική ανάλυση (factor analysis), SVD
- Πολυδιάστατη μετατροπή κλίμακας (multidimensional scaling)
Ανάλυση Κειμένου (Text Mining)
- Προεξόρυξη και κλίμακας των λέξεων (tokenization)
- Bag-of-words, stemming, και lemmatization
- Ανάλυση συναισθήματος και συχνότητα λέξεων (word frequency)
- Οπτική αναπαράσταση δεδομένων κειμένου με word clouds
Συστήματα Συστάσεων (Recommendation Systems)
- Χρήστη-βασισμένη και προϊόν-βασισμένη συγκομβωτική φίλτρωση (user-based and item-based collaborative filtering)
- Σχεδιασμός και αξιολόγηση μηχανισμών συστάσεων
Ανάλυση Συσχετίσεων (Association Pattern Mining)
- Συχνά σύνολα προϊόντων και αλγόριθμος Apriori
- Ανάλυση ράφανου αγοράς (market basket analysis) και λόγος τύλης (lift ratio)
Εξανίχνευση Αφύλαστων Δεδομένων (Outlier Detection)
- Ανάλυση εξαιρετικών τιμών (extreme value analysis)
- Μετά βασισμένες και πυκνότητα-βασισμένες μεθόδους
- Εξανίχνευση αφύλαστων δεδομένων σε υψηλή διάσταση (high-dimensional data)
Η Σπουδή της Μηχανικής Μάθησης: Περίπτωση Ανάλυσης
- Κατανόηση του επιχειρηματικού προβλήματος
- Προετοιμασία δεδομένων και μεταφορά χαρακτηριστικών (feature engineering)
- Επιλογή μοντέλου και ρύθμιση παραμέτρων
- Αξιολόγηση και παρουσίαση των ευρημάτων
- Εφαρμογή (deployment)
Σύνοψη και Επόμενα Βήματα
Απαιτήσεις
- Βασική γνώση των συνεπτικών προσεγγίσεων μάθησης όπως η επιβλέπεται και η ανεπιβλέπεται μάθηση
- Γνώριμη γνώση προγραμματισμού στο Python (μεταβλητές, βρόχοι, συναρτήσεις)
- Μερική εμπειρία χειρισμού δεδομένων με βιβλιοθήκες όπως το pandas ή NumPy αποτελεί συμβουλή, αλλά δεν είναι απαραίτητη
- Δεν προσδοκείται προηγούμενη εμπειρία με προηγμένη μοντελοποίηση ή νευρωνικά δίκτυα
Ακροατήριο
- Επιστήμονες δεδομένων
- Αναλυτές επιχειρήσεων
- Μηχανικοί λογισμικού και τεχνικοί επαγγελματίες που εργάζονται με δεδομένα
Σχόλια (2)
το οικοσύστημα ML δεν περιορίζεται μόνο στο MLFlow αλλά περιλαμβάνει επίσης το Optuna, hyperops, docker και docker-compose
Guillaume GAUTIER - OLEA MEDICAL
Κομμάτι - MLflow
Μηχανική Μετάφραση
Καπνίστηκα συμμετέχοντας στην εκπαίδευση Kubeflow, η οποία διεξήχθη απόδεσμα. Αυτή η εκπαίδευση μου παρέσχε τη δυνατότητα να συγκεντρύνω γνώσεις για υπηρεσίες AWS, K8s και όλα τα εργαλεία devOps που αφορούν το Kubeflow, τα οποία αποτελούν τις απαραίτητες βάσεις για να κατανοήσω επαρκώς το θέμα. Θέλω να ευχαριστήσω τον Malawski Marcin για την υπομονή και την επιγνωμοσύνη του στην εκπαίδευση και τη συμβουλή πάνω σε αρχές καλών πρακτικών. Ο Malawski προσεγγίζει το θέμα από διάφορες γωνίες, χρησιμοποιώντας διάφορα εργαλεία διανομής όπως το Ansible, EKS kubectl, Terraform. Τώρα είμαι σίγουρος πως κινούμαι στη σωστή κατεύθυνση.
Guillaume Gautier - OLEA MEDICAL | Improved diagnosis for life TM
Κομμάτι - Kubeflow
Μηχανική Μετάφραση