Course Outline

 

Εισαγωγή:

    Το Apache Spark στο Hadoop Ecosystem Σύντομη εισαγωγή για python, scala

Βασικά στοιχεία (θεωρία):

    Αρχιτεκτονική RDD Transformation and Actions Stage, Task, Dependencies

Χρησιμοποιώντας το περιβάλλον Databricks κατανοήστε τα βασικά (πρακτικό εργαστήριο):

    Ασκήσεις με χρήση RDD API Βασικές συναρτήσεις ενεργειών και μετασχηματισμού PairRDD Συμμετοχή σε στρατηγικές αποθήκευσης στην κρυφή μνήμη Ασκήσεις με χρήση DataFrame API SparkSQL DataFrame: επιλογή, φίλτρο, ομάδα, ταξινόμηση UDF (συνάρτηση καθορισμένη από το χρήστη) Εξέταση ροής API DataSet

Χρησιμοποιώντας το περιβάλλον AWS κατανοήστε την ανάπτυξη (πρακτικό εργαστήριο):

    Βασικά στοιχεία του AWS Glue Κατανόηση των διαφορών μεταξύ AWS EMR και AWS Glue Παράδειγμα εργασιών και στα δύο περιβάλλοντα Κατανόηση πλεονεκτημάτων και μειονεκτημάτων

Επιπλέον:

    Εισαγωγή στην ενορχήστρωση Apache Airflow

Requirements

Ικανότητες προγραμματισμού (κατά προτίμηση python, scala)

SQL βασικά

  21 Hours

Number of participants


Starts

Ends


Dates are subject to availability and take place between 09:30 and 16:30.

Price per participant

Testimonials (3)

Related Courses

Introduction to Graph Computing

  28 Hours

Magellan: Geospatial Analytics on Spark

  14 Hours

Apache Spark SQL

  7 Hours

A Practical Introduction to Stream Processing

  21 Hours

Big Data Analytics in Health

  21 Hours

Apache Spark for .NET Developers

  21 Hours

Hadoop and Spark for Administrators

  35 Hours

Related Categories