Εξέλιξη Κομματιού
Εισαγωγή, Στόχοι και Στρατηγική Μετάβασης
- Στόχοι του μαθήματος, αναλογία προφίλ συμμετεχόντων και κριτήρια επιτυχίας
- Κύριες προσέγγιση μετάβασης και θέματα ρισκους
- Διαθέτεται το χώρο εργασίας, αποθετήριων και συμβολοσειρά δεδομένων
Ημέρα 1 — Βασικά Στοιχεία και Αρχιτεκτονική Μετάβασης
- Εννοιές Lakehouse, περίγραφη Delta Lake και αρχιτεκτονική Databricks
- Διάφορες SMP vs MPP και οι επιπτώσεις τους στη μετάβαση
- Σχεδιασμός Medallion (Bronze→Silver→Gold) και περίγραφη Unity Catalog
Ημέρα 1 Εργαστήριο — Μετάβαση Αποθηκευμένης Διαδικασίας
- Χειροκίνητη μετάβαση δείγματος αποθηκευμένης διαδικασίας σε notebook
- Αντιγραφή προσωρινών πινάκων και κουρσόρ σε μετασχηματισμούς DataFrame
- Επιβεβαίωση και σύγκριση με το αρχικό αποτέλεσμα
Ημέρα 2 — Διαθετικό Delta Lake και Προσαυξητική Εισαγωγή
- Συναλλακές ACID, καταχώρησεις, εκδόσεις και μεταφορά στο χρόνο
- Auto Loader, συμπεριφορές MERGE INTO, upserts και εξέλιξη προσδιοριστικών χαρακτηριστικών
- OPTIMIZE, VACUUM, Z-ORDER, διαίρεση και μεταξύλωση αποθεμάτων
Ημέρα 2 Εργαστήριο — Προσαυξητική Εισαγωγή και Βελτιότητα
- Εφαρμογή Auto Loader εισαγωγής και MERGE ρυθμίσεων
- Εφαρμογή OPTIMIZE, Z-ORDER, VACUUM; επαλήθευση αποτελεσμάτων
- Μέτρηση βελτιώσεων απόδοσης και γραφή/διαβαγιακή διάβαση
Ημέρα 3 — SQL στο Databricks, Απόδοση και Διαθεώρηση
- Αναλυτικά χαρακτηριστικά SQL: παράθυρα, συναρτήσεις ανώτερης τάξης, επεξεργασία JSON/λίστων
- Ανάγνωση του Spark UI, DAGs, ανακολουθήσεις, στάδια, εργασίες και διάγνωση αρνητικών παρεμβολών
- Πρότυπα ρύθμισης ερωτήσεων: broadcast joins, hints, caching και μείωση spill
Ημέρα 3 Εργαστήριο — Μετασχηματισμός SQL και Ρύθμιση Απόδοσης
- Επανεργασία μεγάλων προχέτων SQL σε βελτιωμένο Spark SQL
- Χρήση ανακολουθήσεων UI του Spark για ταυτόχρονη και μείωση ανακολουθήσεων
- Μέτρηση προ της/μετά της επεξεργασίας και καταχώρηση βήματων ρύθμισης
Ημέρα 4 — Στρατηγική PySpark: Αντικατάσταση Επαληθευμένης Λογικής
- Μοντέλο εκτέλεσης Spark: driver, executors, lazy evaluation και στρατηγικές διαίρεσης
- Αλλαγή βρόχων και κουρσόρ σε ανάδοχες επεξεργασίες DataFrame
- Μοντοποιημένη, UDFs/pandas UDFs, widgets και επαναχρησιμοποιήσιμες βιβλιοθήκες
Ημέρα 4 Εργαστήριο — Μετασχηματισμός Προγραμματισμού
- Επανεργασία επαληθευμένου σκριπτ ETL σε μοντοποιημένα PySpark notebooks
- Εισαγωγή παραμετροποίησης, μοναδικών τεστ και επαναχρησιμοποιήσιμων συναρτήσεων
- Επιθεωρήσεις κώδικα και εφαρμογή λίστας βέλτιστων πρακτικών
Ημέρα 5 — Ρύθμιση, Πλήρεις Αρχιτεκτονικές και Βέλτιστες Πρακτικές
- Databricks Workflows: σχεδιασμός των εργασιών, περιάρθρωση εργασιών, κλικίες και χειρισμός λαθών
- Σχεδιασμός προσαυξητικών αρχιτεκτονικών Medallion με κανόνες ποιότητας και επαλήθευση προσδιοριστικών χαρακτηριστικών
- Ενσωμάτωση με Git (GitHub/Αzure DevOps), CI και στρατηγικές δοκιμασίας για τη λογική PySpark
Ημέρα 5 Εργαστήριο — Δημιουργία Πλήρων Πλαισίων από τέλους σε τέλος
- Συνέλευση πιπέρων Bronze→Silver→Gold με ρύθμιση Workflows
- Εφαρμογή καταγραφής, ελέγχου, απόδοσης και αυτόματης επαλήθευσης
- Εκτέλεση πλήρους πιπέρων, επαλήθευση αποτελεσμάτων και προσφορά σημειώσεων διαθέτησης
Παραγωγή, Διακυβέρνηση και Έτοιμοι για Παράδοση
- Unity Catalog διακυβέρνηση, γενεαλογία και πρακτικές ελέγχου πρόσβασης
- Έξοδα, μεγέθη κλωβών, αυτόματη κλική και συνδυασμοί εργασιών
- Λίστες διαθέτησης, στρατηγικές απόδοσης και δημιουργία υποβολής
Τελική Εξέταση, Μετάδοση Γνώσεων και Επόμενα Βήματα
- Παρουσιάσεις συμμετεχόντων για τη μετάβαση εργασίας και τα αποκτηθέντα διδάγματα
- Ανάλυση χάσματος, συστείς απόδοσης και παράδοση υλικών εκπαίδευσης
- Αναφορές, πρωτότυπα μάθημα και επιλογές υποστήριξης
Απαιτήσεις
- Σύνεση των εννοιών διαχείρισης δεδομένων
- Εμπειρία με SQL και αποθηκευμένες διαδικασίες (Synapse / SQL Server)
- Γνώση των εννοιών ρύθμισης ETL (ADF ή παρόμοιες)
Ακροατήριο
- Τεχνολογικοί υπεύθυνοι με εμπειρία σε διαχείριση δεδομένων
- Μηχανικοί δεδομένων που μεταβάλλουν επαληθευμένη OLAP λογική σε τύπους Lakehouse
- Πλατφόρμες μηχανικών υπεύθυνων για την αποδοχή Databricks