Εξέλιξη Κομματιού

Εισαγωγή:

  • Apache Spark στο Οικοσύστημα Hadoop
  • Συντομή παρουσίαση για python, scala

Βασικά (θεωρία):

  • Αρχιτεκτονική
  • RDD
  • Μετατροπές και Ενέργειες (Transformations and Actions)
  • Stage, Task, Dependencies

Χρήση του περιβάλλοντος Databricks για κατανόηση των βασικών (χειροντονική εργαστήριο):

  • Άσκηση χρήσης RDD API
  • Βασικές συναρτήσεις ενέργειας και μετατροπής (action and transformation functions)
  • PairRDD
  • Join
  • Στρατηγικές αποθήκευσης (Caching strategies)
  • Άσκηση χρήσης DataFrame API
  • SparkSQL
  • DataFrame: select, filter, group, sort
  • UDF (User Defined Function)
  • Ανατολή στην DataSet API
  • Streaming

Χρήση του περιβάλλοντος AWS για κατανόηση της αποκατάστασης (χειροντονική εργαστήριο):

  • Βασικά στο AWS Glue
  • Κατανόηση των διαφορών μεταξύ AWS EMR και AWS Glue
  • Παραδείγματα ιατρικής συμπεριφοράς (jobs) σε και τα δύο περιβάλλοντα
  • Κατανόηση πλεονεκτικών και μειονεκτικών σημείων (pros and cons)

Επιπλέον:

  • Εισαγωγή στην χορήγηση του Apache Airflow

Απαιτήσεις

Ικανότητες προγραμματισμού (κατά προτίμηση python, scala)

SQL βασικά

 21 Ώρες

Αριθμός συμμετέχοντων


Τιμή ανά συμμετοχαστή

Σχόλια (3)

Εφεξής Μαθήματα

Σχετικές Κατηγορίες