Εξέλιξη Κομματιού
Μια Εισαγωγή στην Μηχανική Μάθηση
- Τύποι μηχανικής μάθησης – εποπτευόμενη αντί σε μη εποπτευόμενη
- Από τη στατιστική μάθηση στη μηχανική μάθηση
- Το ρεύμα εξόρυξης δεδομένων: κατανόηση του επιχειρηματικού πλαισίου, προετοιμασία δεδομένων, μοντελοποίηση, εφαρμογή
- Επιλογή του κατάλληλου αλγόριθμου για την άσκηση
- Η υπερημίτονη και το εμπορικό εμφύλιο προσαρμογής-ακρίβειας (bias-variance tradeoff)
Εισαγωγή στις Βιβλιοθήκες Python και ML
- Γιατί χρησιμοποιούμε γλώσσες προγραμματισμού για ΜΜ
- Επιλογή μεταξύ R και Python
- Εισαγωγή στην Python και Jupyter Notebooks
- Βιβλιοθήκες Python: pandas, NumPy, scikit-learn, matplotlib, seaborn
Δοκιμασία και Αξιολόγηση Αλγορίθμων ML
- Γενίκευση, υπερημίτονη και επαλήθευση μοντέλου
- Στρατηγικές αξιολόγησης: holdout, cross-validation, bootstrapping
- Μετρικές για προβλήματα προσαρμογής (regression): ME, MSE, RMSE, MAPE
- Μετρικές για κατηγορικά προβλήματα: ακρίβεια, μπλενθυρό τάξης (confusion matrix), άρθρωμα-μονοδιάστατες κλάσεις
- Οπτική αναπαράσταση επίδοσης μοντέλου: προφιλάκτη γεφυρώματος (profit curve), ROC καμπύλη, lift καμπύλη
- Επιλογή μοντέλου και grid search για ανασυνόδευση (tuning)
Προετοιμασία Δεδομένων
- Εισαγωγή και αποθήκευση δεδομένων σε Python
- Εξερευνητική ανάλυση και επιστατιστικά στοιχεία (summary statistics)
- Χειρισμός ημι-δεικτών τιμών και αφύλαστων δεδομένων (outliers)
- Προτυποποίηση, κανονικοποίηση και μετατροπή
- Ανάδειξη ποιότητας δεδομένων και ανάδειξη δεδομένων (data wrangling) με pandas
Αλγόριθμοι Κατηγοριοποίησης
- Δυαδική αντί σε πολλαπλή κατηγοριοποίηση (binary vs multiclass classification)
- Λογιστική παλινδρόμηση και διάκριση συναρτήσεων
- Απλοϊκή Βέϊς (Naïve Bayes), k-γείτονες ανά πρόσωπο (k-nearest neighbors)
- Δέντρα αποφάσεων: CART, Random Forests, Bagging, Boosting, XGBoost
- Μηχανής υποστήριξης κανόνων (Support Vector Machines) και πυκνά (kernels)
- Τεχνικές συγκομβωτικής μάθησης (ensemble learning techniques)
Προσαρμογή και Αριθμητική Πρόβλεψη
- Ελάχιστα τετραγώνια (least squares) και επιλογή μεταβλητών
- Μέθοδοι ρυθμίζουσας παραμέτρωσης: L1, L2
- Πολυώνυμη παλινδρόμηση και μη γραμμικά μοντέλα (nonlinear models)
- Δέντρα προσαρμογής και splines
Νευρωνικά Δίκτυα
- Εισαγωγή στα νευρωνικά δίκτυα και τη βαθιά μάθηση (deep learning)
- Συναρτήσεις ενεργοποίησης, στρώματα, και backpropagation
- Πολυστρωμάτια περιφερειακά (Multilayer perceptrons - MLP)
- Χρήση TensorFlow ή PyTorch για βασικές μοντελοποιήσεις νευρωνικών δικτύων
- Νευρωνικά δίκτυα για κατηγοριοποίηση και προσαρμογή (regression)
Πρόβλεψη Πώλησης και Προϊκανόνιση (Predictive Analytics)
- Χρονοσειρές αντί σε προσαρμογή-βασισμένη πρόβλεψη
- Χειρισμός ουρώδων και τάσης δεδομένων (seasonal and trend-based data)
- Κατασκευή μοντέλου πρόβλεψης πώλησης χρησιμοποιώντας τεχνικές ML
- Αξιολόγηση της ακρίβειας και άρθρωμα-μονοδιάστατης πρόβλεψης (forecast accuracy and uncertainty)
- Επιχειρηματική ερμηνεία και ανακοίνωση των αποτελεσμάτων
Μη Εποπτευόμενη Μάθηση
- Τεχνικές κατάτμησης: k-means, k-medoids, iεραρχική κατάτμηση (hierarchical clustering), SOMs
- Μείωση διαφοροποιημένότητας: PCA, παραγοντική ανάλυση (factor analysis), SVD
- Πολυδιάστατη μετατροπή κλίμακας (multidimensional scaling)
Ανάλυση Κειμένου (Text Mining)
- Προεξόρυξη και κλίμακας των λέξεων (tokenization)
- Bag-of-words, stemming, και lemmatization
- Ανάλυση συναισθήματος και συχνότητα λέξεων (word frequency)
- Οπτική αναπαράσταση δεδομένων κειμένου με word clouds
Συστήματα Συστάσεων (Recommendation Systems)
- Χρήστη-βασισμένη και προϊόν-βασισμένη συγκομβωτική φίλτρωση (user-based and item-based collaborative filtering)
- Σχεδιασμός και αξιολόγηση μηχανισμών συστάσεων
Ανάλυση Συσχετίσεων (Association Pattern Mining)
- Συχνά σύνολα προϊόντων και αλγόριθμος Apriori
- Ανάλυση ράφανου αγοράς (market basket analysis) και λόγος τύλης (lift ratio)
Εξανίχνευση Αφύλαστων Δεδομένων (Outlier Detection)
- Ανάλυση εξαιρετικών τιμών (extreme value analysis)
- Μετά βασισμένες και πυκνότητα-βασισμένες μεθόδους
- Εξανίχνευση αφύλαστων δεδομένων σε υψηλή διάσταση (high-dimensional data)
Η Σπουδή της Μηχανικής Μάθησης: Περίπτωση Ανάλυσης
- Κατανόηση του επιχειρηματικού προβλήματος
- Προετοιμασία δεδομένων και μεταφορά χαρακτηριστικών (feature engineering)
- Επιλογή μοντέλου και ρύθμιση παραμέτρων
- Αξιολόγηση και παρουσίαση των ευρημάτων
- Εφαρμογή (deployment)
Σύνοψη και Επόμενα Βήματα
Απαιτήσεις
- Βασική γνώση των συνεπτικών προσεγγίσεων μάθησης όπως η επιβλέπεται και η ανεπιβλέπεται μάθηση
- Γνώριμη γνώση προγραμματισμού στο Python (μεταβλητές, βρόχοι, συναρτήσεις)
- Μερική εμπειρία χειρισμού δεδομένων με βιβλιοθήκες όπως το pandas ή NumPy αποτελεί συμβουλή, αλλά δεν είναι απαραίτητη
- Δεν προσδοκείται προηγούμενη εμπειρία με προηγμένη μοντελοποίηση ή νευρωνικά δίκτυα
Ακροατήριο
- Επιστήμονες δεδομένων
- Αναλυτές επιχειρήσεων
- Μηχανικοί λογισμικού και τεχνικοί επαγγελματίες που εργάζονται με δεδομένα
Σχόλια (2)
ο οικόσυμος της ML όχι μόνο το MLFlow αλλά και το Optuna, το hyperops, το docker, το docker-compose
Guillaume GAUTIER - OLEA MEDICAL
Κομμάτι - MLflow
Μηχανική Μετάφραση
Μετάφραση αυτού Από: en Σε: el Με ευχαρίστησε να συμμετάσχω στην εκπαίδευση Kubeflow, η οποία πραγματοποιήθηκε από μακρές αποστάσεις. Αυτή η εκπαίδευση μου δώρισε την ευκαιρία να παγιώσω τις γνώσεις μου για υπηρεσίες AWS, K8s και όλα τα εργαλεία devOps που σχετίζονται με το Kubeflow, οι οποίες είναι τα απαραίτητα βάσιμα για να αντιμετωπίσουμε σωστά το θέμα. Θέλω να ευχαριστήσω τον Malawski Marcin για τη χρηστικότητά και την προфессионаλιστικότητά του στην εκπαίδευση και τις συμβουλές για τις καλύτερες πρακτικές. Ο Malawski προσέγγιζε το θέμα από διάφορες αποψίδες, διάφορα εργαλεία κατανάλωσης Ansible, EKS kubectl, Terraform. Τώρα είμαι σίγουρος ότι προχωρώ στο σωστό πεδίο εφαρμογής.
Guillaume Gautier - OLEA MEDICAL | Improved diagnosis for life TM
Κομμάτι - Kubeflow
Μηχανική Μετάφραση