Εξέλιξη Κομματιού

Εισαγωγή, Στόχοι και Στρατηγική Μετάβασης

  • Στόχοι του μαθήματος, αναλογία προφίλ συμμετεχόντων και κριτήρια επιτυχίας
  • Κύριες προσέγγιση μετάβασης και θέματα ρισκους
  • Διαθέτεται το χώρο εργασίας, αποθετήριων και συμβολοσειρά δεδομένων

Ημέρα 1 — Βασικά Στοιχεία και Αρχιτεκτονική Μετάβασης

  • Εννοιές Lakehouse, περίγραφη Delta Lake και αρχιτεκτονική Databricks
  • Διάφορες SMP vs MPP και οι επιπτώσεις τους στη μετάβαση
  • Σχεδιασμός Medallion (Bronze→Silver→Gold) και περίγραφη Unity Catalog

Ημέρα 1 Εργαστήριο — Μετάβαση Αποθηκευμένης Διαδικασίας

  • Χειροκίνητη μετάβαση δείγματος αποθηκευμένης διαδικασίας σε notebook
  • Αντιγραφή προσωρινών πινάκων και κουρσόρ σε μετασχηματισμούς DataFrame
  • Επιβεβαίωση και σύγκριση με το αρχικό αποτέλεσμα

Ημέρα 2 — Διαθετικό Delta Lake και Προσαυξητική Εισαγωγή

  • Συναλλακές ACID, καταχώρησεις, εκδόσεις και μεταφορά στο χρόνο
  • Auto Loader, συμπεριφορές MERGE INTO, upserts και εξέλιξη προσδιοριστικών χαρακτηριστικών
  • OPTIMIZE, VACUUM, Z-ORDER, διαίρεση και μεταξύλωση αποθεμάτων

Ημέρα 2 Εργαστήριο — Προσαυξητική Εισαγωγή και Βελτιότητα

  • Εφαρμογή Auto Loader εισαγωγής και MERGE ρυθμίσεων
  • Εφαρμογή OPTIMIZE, Z-ORDER, VACUUM; επαλήθευση αποτελεσμάτων
  • Μέτρηση βελτιώσεων απόδοσης και γραφή/διαβαγιακή διάβαση

Ημέρα 3 — SQL στο Databricks, Απόδοση και Διαθεώρηση

  • Αναλυτικά χαρακτηριστικά SQL: παράθυρα, συναρτήσεις ανώτερης τάξης, επεξεργασία JSON/λίστων
  • Ανάγνωση του Spark UI, DAGs, ανακολουθήσεις, στάδια, εργασίες και διάγνωση αρνητικών παρεμβολών
  • Πρότυπα ρύθμισης ερωτήσεων: broadcast joins, hints, caching και μείωση spill

Ημέρα 3 Εργαστήριο — Μετασχηματισμός SQL και Ρύθμιση Απόδοσης

  • Επανεργασία μεγάλων προχέτων SQL σε βελτιωμένο Spark SQL
  • Χρήση ανακολουθήσεων UI του Spark για ταυτόχρονη και μείωση ανακολουθήσεων
  • Μέτρηση προ της/μετά της επεξεργασίας και καταχώρηση βήματων ρύθμισης

Ημέρα 4 — Στρατηγική PySpark: Αντικατάσταση Επαληθευμένης Λογικής

  • Μοντέλο εκτέλεσης Spark: driver, executors, lazy evaluation και στρατηγικές διαίρεσης
  • Αλλαγή βρόχων και κουρσόρ σε ανάδοχες επεξεργασίες DataFrame
  • Μοντοποιημένη, UDFs/pandas UDFs, widgets και επαναχρησιμοποιήσιμες βιβλιοθήκες

Ημέρα 4 Εργαστήριο — Μετασχηματισμός Προγραμματισμού

  • Επανεργασία επαληθευμένου σκριπτ ETL σε μοντοποιημένα PySpark notebooks
  • Εισαγωγή παραμετροποίησης, μοναδικών τεστ και επαναχρησιμοποιήσιμων συναρτήσεων
  • Επιθεωρήσεις κώδικα και εφαρμογή λίστας βέλτιστων πρακτικών

Ημέρα 5 — Ρύθμιση, Πλήρεις Αρχιτεκτονικές και Βέλτιστες Πρακτικές

  • Databricks Workflows: σχεδιασμός των εργασιών, περιάρθρωση εργασιών, κλικίες και χειρισμός λαθών
  • Σχεδιασμός προσαυξητικών αρχιτεκτονικών Medallion με κανόνες ποιότητας και επαλήθευση προσδιοριστικών χαρακτηριστικών
  • Ενσωμάτωση με Git (GitHub/Αzure DevOps), CI και στρατηγικές δοκιμασίας για τη λογική PySpark

Ημέρα 5 Εργαστήριο — Δημιουργία Πλήρων Πλαισίων από τέλους σε τέλος

  • Συνέλευση πιπέρων Bronze→Silver→Gold με ρύθμιση Workflows
  • Εφαρμογή καταγραφής, ελέγχου, απόδοσης και αυτόματης επαλήθευσης
  • Εκτέλεση πλήρους πιπέρων, επαλήθευση αποτελεσμάτων και προσφορά σημειώσεων διαθέτησης

Παραγωγή, Διακυβέρνηση και Έτοιμοι για Παράδοση

  • Unity Catalog διακυβέρνηση, γενεαλογία και πρακτικές ελέγχου πρόσβασης
  • Έξοδα, μεγέθη κλωβών, αυτόματη κλική και συνδυασμοί εργασιών
  • Λίστες διαθέτησης, στρατηγικές απόδοσης και δημιουργία υποβολής

Τελική Εξέταση, Μετάδοση Γνώσεων και Επόμενα Βήματα

  • Παρουσιάσεις συμμετεχόντων για τη μετάβαση εργασίας και τα αποκτηθέντα διδάγματα
  • Ανάλυση χάσματος, συστείς απόδοσης και παράδοση υλικών εκπαίδευσης
  • Αναφορές, πρωτότυπα μάθημα και επιλογές υποστήριξης

Απαιτήσεις

  • Σύνεση των εννοιών διαχείρισης δεδομένων
  • Εμπειρία με SQL και αποθηκευμένες διαδικασίες (Synapse / SQL Server)
  • Γνώση των εννοιών ρύθμισης ETL (ADF ή παρόμοιες)

Ακροατήριο

  • Τεχνολογικοί υπεύθυνοι με εμπειρία σε διαχείριση δεδομένων
  • Μηχανικοί δεδομένων που μεταβάλλουν επαληθευμένη OLAP λογική σε τύπους Lakehouse
  • Πλατφόρμες μηχανικών υπεύθυνων για την αποδοχή Databricks
 35 Ώρες

Αριθμός συμμετέχοντων


Τιμή ανά συμμετέχοντα

Εφεξής Μαθήματα

Σχετικές Κατηγορίες