Επικοινωνήστε μαζί μας

Εξέλιξη Κομματιού

PySpark & Μηχανική Μάθηση 

Ενότητα 1: Θεμελιώδεις Αρχές Big Data & Spark

  • Επισκόπηση του οικοσυστήματος Big Data και του ρόλου του Spark στις σύγχρονες πλατφόρμες δεδομένων
  • Κατανόηση της αρχιτεκτονικής του Spark: driver, executors, cluster manager, lazy evaluation, DAG και σχεδιασμός εκτέλεσης
  • Διαφορές μεταξύ των API RDD και DataFrame και πότε να χρησιμοποιείται η κάθε προσέγγιση
  • Δημιουργία και διαμόρφωση του SparkSession και κατανόηση των θεμελιωδών αρχών διαμόρφωσης εφαρμογών

Ενότητα 2: PySpark DataFrames

  • Ανάγνωση και εγγραφή δεδομένων από επιχειρησιακές πηγές και μορφές (CSV, JSON, Parquet, Delta)
  • Εργασία με PySpark DataFrames: μετασχηματισμοί, ενέργειες (actions), εκφράσεις στηλών, φιλτράρισμα, joins και συγκεντρώσεις
  • Υλοποίηση προηγμένων λειτουργιών, όπως συναρτήσεις παραθύρων, διαχείριση χρονικών σήμανσης (timestamps) και εργασία με εμφυτευμένα δεδομένα
  • Εφαρμογή ελέγχων ποιότητας δεδομένων και γραφή αναπαραγώγιμου, συντηρήσιμου κώδικα PySpark

Ενότητα 3: Αποδοτική Επεξεργασία Μεγάλων Συνόλων Δεδομένων

  • Κατανόηση των θεμελιωδών αρχών απόδοσης: στρατηγικές κατατμήσεως (partitioning), συμπεριφορά shuffle, caching και persistence
  • Χρήση τεχνικών βελτιστοποίησης, συμπεριλαμβανομένων των broadcast joins και της ανάλυσης του πλάνου εκτέλεσης
  • Αποδοτική επεξεργασία μεγάλων συνόλων δεδομένων και βέλτιστες πρακτικές για επεκτάσιμες ροές εργασίας δεδομένων
  • Κατανόηση της εξέλιξης του σχήματος (schema evolution) και των σύγχρονων μορφών αποθήκευσης που χρησιμοποιούνται σε επιχειρησιακά περιβάλλοντα

Ενότητα 4: Μηχανική Χαρακτηριστικών σε Μεγάλη Κλίμακα

  • Εκτέλεση μηχανικής χαρακτηριστικών με τη χρήση της Spark MLlib: διαχείριση ελλιπών τιμών, κωδικοποίηση κατηγορικών μεταβλητών και κλιμάκωση χαρακτηριστικών
  • Σχεδιασμός επαναχρησιμοποιήσιμων βημάτων προεπεξεργασίας και προετοιμασία συνόλων δεδομένων για ροές εργασίας Μηχανικής Μάθησης
  • Εισαγωγή στην επιλογή χαρακτηριστικών και τη διαχείριση μη ισορροπημένων συνόλων δεδομένων

Ενότητα 5: Μηχανική Μάθηση με τη χρήση Spark MLlib

  • Κατανόηση της αρχιτεκτονικής της MLlib και του μοτίβου Estimator/Transformer
  • Εκπαίδευση μοντέλων παλινδρόμησης και ταξινόμησης σε μεγάλη κλίμακα (Linear Regression, Logistic Regression, Decision Trees, Random Forest)
  • Σύγκριση μοντέλων και ερμηνεία αποτελεσμάτων σε κατανεμημένες ροές εργασίας Μηχανικής Μάθησης

Ενότητα 6: Ολοκληρωμένες Ροές Εργασίας ML (End-to-End ML Pipelines)

  • Κατασκευή ολοκληρωμένων ροών εργασίας Μηχανικής Μάθησης που συνδυάζουν προεπεξεργασία, μηχανική χαρακτηριστικών και μοντελοποίηση
  • Εφαρμογή στρατηγικών διαχωρισμού train/validation/test
  • Εκτέλεση διασταυρούμενης επικύρωσης (cross-validation) και βελτιστοποίησης υπερπαραμέτρων με χρήση grid search και random search
  • Δομήση αναπαραγώγιμων πειραμάτων Μηχανικής Μάθησης

Ενότητα 7: Αξιολόγηση Μοντέλων & Πρακτική Λήψη Αποφάσεων στη Μηχανική Μάθηση

  • Εφαρμογή κατάλληλων μετρικών αξιολόγησης για προβλήματα παλινδρόμησης και ταξινόμησης
  • Εντοπισμός υπέρυψης (overfitting) και υπουψής (underfitting) και λήψη πρακτικών αποφάσεων επιλογής μοντέλου
  • Ερμηνεία της σημαντικότητας των χαρακτηριστικών και κατανόηση της συμπεριφοράς του μοντέλου

Ενότητα 8: Παραγωγή & Επιχειρησιακές Πρακτικές

  • Αποθήκευση και φόρτωση μοντέλων στο Spark
  • Υλοποίηση ροών εργασίας batch inference σε μεγάλα σύνολα δεδομένων
  • Κατανόηση του κύκλου ζωής της Μηχανικής Μάθησης σε επιχειρησιακά περιβάλλοντα
  • Εισαγωγή στις έννοιες της διαχείρισης εκδόσεων (versioning), της παρακολούθησης πειραμάτων (experiment tracking) και βασικών στρατηγικών δοκιμών

 

Πρακτικό Αποτέλεσμα

  • Ικανότητα αυτόνομης εργασίας με το PySpark
  • Ικανότητα αποδοτικής επεξεργασίας μεγάλων συνόλων δεδομένων
  • Ικανότητα εκτέλεσης μηχανικής χαρακτηριστικών σε μεγάλη κλίμακα
  • Ικανότητα κατασκευής επεκτάσιμων ροών εργασίας Μηχανικής Μάθησης

Απαιτήσεις

Οι συμμετέχοντες θα πρέπει να διαθέτουν τα εξής προσόντα:

Βασικές γνώσεις προγραμματισμού Python, συμπεριλαμβανομένης της εργασίας με συναρτήσεις, δομές δεδομένων και βιβλιοθήκες
Βασική κατανόηση εννοιών ανάλυσης δεδομένων, όπως σύνολα δεδομένων, μετασχηματισμοί και συγκεντρώσεις (aggregations)
Βασικές γνώσεις SQL και εννοιών σχεσιακών δεδομένων
Εισαγωγική κατανόηση εννοιών Μηχανικής Μάθησης, όπως σύνολα δεδομένων εκπαίδευσης, χαρακτηριστικά και μετρικές αξιολόγησης
Συνιστάται εξοικείωση με περιβάλλοντα γραμμής εντολών και βασικές πρακτικές ανάπτυξης λογισμικού

Η εμπειρία με βιβλιοθήκες επεξεργασίας δεδομένων όπως το Pandas, το NumPy ή παρόμοιες είναι χρήσιμη, αλλά όχι υποχρεωτική.

 21 Ώρες

Αριθμός συμμετέχοντων


Τιμή ανά συμμετέχοντα

Σχόλια (1)

Εφεξής Μαθήματα

Σχετικές Κατηγορίες