Εξέλιξη Κομματιού

Εβδομάδα 1 — Εισαγωγή στη Διαχείριση Δεδομένων (Data Engineering)

  • Βασικά στοιχεία της διαχείρισης δεδομένων και σύγχρονα πλαίσια δεδομένων
  • Μοτίβα εισαγωγής δεδομένων και πηγές
  • Επεξεργασία μπατς (batch) αντί σε ροές (streaming): εννοιών και εφαρμογές
  • Χειρονομήτης εργαστήριο: εισαγωγή δεδομένων από δείγματα σε υπολογιστική αποθήκευση

Εβδομάδα 2 — Μετάδοτο Διακρίσεως Databricks Lakehouse Foundation Badge

  • Βασικά του πλατφόρματος Databricks και εξερεύνηση χώρου δουλειάς (workspace)
  • Εννοιές Delta Lake: ACID, υποχρονική πλοήγηση (time travel), και εξέλιξη σχήματος (schema evolution)
  • Ασφάλεια του χώρου δουλειάς, έλεγχοι πρόσβασης και βασικά Unity Catalog
  • Χειρονομήτης εργαστήριο: δημιουργία και διαχείριση Delta πινάκων (tables)

Εβδομάδα 3 — Προηγμένο SQL στο Databricks

  • Προηγμένες κατασκευές του SQL και πλήρωμα (window functions) σε μεγάλη κλίμακα
  • Βελτιστοποίηση ερωτήσεων, αναλυτικές σχέδια (explain plans) και μοτίβα που λαμβάνουν υπόψη το κόστος
  • Τυποποιημένες απόψεις, μεγάλη μνήμη (caching) και βελτιστοποίηση επαρκείας
  • Χειρονομήτης εργαστήριο: βελτιστοποίηση αναλυτικών ερωτήσεων σε μεγάλους πίνακες δεδομένων

Εβδομάδα 4 — Εξέταση Μαθητικής Databricks Certified Developer for Apache Spark (Prep)

  • Αρχιτεκτονική του Spark, RDDs, DataFrames, και Datasets: επίλυση με βάθος
  • Βασικές μετασχηματισμοί (transformations) και ενέργειες του Spark; παράμετροι απόδοσης
  • Βασικά ρευστών δεδομένων (streaming) και μοτίβα συμμορφωμένου ρεύστη (structured streaming)
  • Άσκηση πρακτικής εξέτασης και χειρονομήτης τεχνητά ζητήματα

Εβδομάδα 5 — Εισαγωγή στη Διαμόρφωση Δεδομένων (Data Modeling)

  • Εννοιές: διαμορφώσεις (dimensional modeling), κατασκευή αστέρα/σχήμα, και μεθοδολογία εξόρθωσης (normalization)
  • Μοντέλα διαμόρφωσης lakehouse αντί για παραδοσιακά πλήρεις καταθέσεις (warehouse approaches)
  • Μοτίβα σχεδιασμού για datasets έτοιμους για αναλυτική επεξεργασία
  • Χειρονομήτης εργαστήριο: κατασκευή πινάκων και απόψεων έτοιμων για χρήση

Εβδομάδα 6 — Εισαγωγή σε Εργαλεία εισαγωγής δεδομένων και αυτοματοποίηση

  • Συνδυαστικά πλατφόρματος Databricks (AWS Glue, Data Factory, Kafka)
  • Μοτίβα εισαγωγής ρεύστη και σχεδιασμοί μικρών μπατς
  • Έλεγχος ποιότητας δεδομένων, εξέταση αξιοπιστίας και τήρηση σχήματος
  • Χειρονομήτης εργαστήριο: κατασκευή διευθυνόμενων πλυνίσματός (pipelines) αξιοπιστίας

Εβδομάδα 7 — Εισαγωγή στη Git Flow και CI/CD για Data Engineering

  • Στρατηγικές χωρίσματος (branching) του Git Flow και οργάνωση αποθετηρίων
  • Διαδικασίες CI/CD για notebook, jobs, και επεξεργασία ως κώδικα (infrastructure as code)
  • Τεχνικές δοκιμής, συμβολή στην βελτίωση του πρόγραμματος και αυτοματοποίηση εξάρθρωσης για δεδομένα
  • Χειρονομήτης εργαστήριο: υλοποίηση ρεύματος (workflow) με βάση το Git και αυτοματοποίηση ολοκλήρωσης

Εβδομάδα 8 — Διακρίσεις Databricks Certified Data Engineer Associate (Prep) & Data Engineering Patterns

  • Αναθεώρηση θεμάτων πιστοποίησης και πρακτικές ασκήσεις
  • Αρχιτεκτονικά μοτίβα: χάλκινο/αργυρό/χρυσό, CDC, και βαθές περιβολή (slowly changing dimensions)
  • Επιχειρηματικά μοτίβα: παρακολούθηση, ενημέρωση και γενεαλογία
  • Χειρονομήτης εργαστήριο: ρυθμός (pipeline) από τέλους έως τέλος με προσαρμογή σε μοτίβα διαχείρισης

Εβδομάδα 9 — Εισαγωγή στην Airflow και Astronomer; Scripting

  • Εννοιές της Airflow: DAGs, tasks, operators, και προγραμματισμός (scheduling)
  • Γενική ιδέα για το πλατφόρμα Astronomer και βέλτιστη πρακτικά χορεύτρων (orchestration)
  • Scripting για αυτοματοποίηση: ζούχτυ-ψάθρινες τυποποιημένες προσαρμογές Python σε εργασίες δεδομένων
  • Χειρονομήτης εργαστήριο: χορεύτης (orchestration) των jobs Databricks με DAGs Airflow

Εβδομάδα 10 — Οπτικοποίηση Δεδομένων, Tableau και Προσαρμογή του Τελικού Έργου

  • Σύνδεση στο Tableau με Databricks και πρακτικές για διαχείριση BI (BI layers)
  • Αρχές διάβλεψης πίνακων (dashboard) και επαρκής οπτικοποίηση σε χρηστή απόδοση
  • Συγκρότημα: προσαρμογή, υλοποίηση και παρουσίαση τελικού έργου
  • Τελικές παρουσιάσεις, αξιολόγηση υποδοχής και σχόλια του εκπαιδευτή

Περίληψη και Επόμενα Βήματα

Απαιτήσεις

  • Κατανόηση των βασικών SQL και δεδομένων
  • Εμπειρία προγραμματισμού σε Python ή Scala
  • Γνώση υπηρεσιών στον κλωνό και εικονικών περιβάλλοντων

Διαδείξη

  • Ασπιρούν και ημεροφόρους διαχευτές δεδομένων
  • Εξελικτές ETL/BI και μηχανικοί ανάλυσης δεδομένων
  • Ομάδες πλατφόρμας δεδομένων και DevOps που υποστηρίζουν τα πipelines
 350 Ώρες

Αριθμός συμμετέχοντων


Τιμή ανά συμμετοχαστή

Εφεξής Μαθήματα

Σχετικές Κατηγορίες