Course Outline

 

Εισαγωγή:

    Το Apache Spark στο Hadoop Ecosystem Σύντομη εισαγωγή για python, scala

Βασικά στοιχεία (θεωρία):

    Αρχιτεκτονική RDD Transformation and Actions Stage, Task, Dependencies

Χρησιμοποιώντας το περιβάλλον Databricks κατανοήστε τα βασικά (πρακτικό εργαστήριο):

    Ασκήσεις με χρήση RDD API Βασικές συναρτήσεις ενεργειών και μετασχηματισμού PairRDD Συμμετοχή σε στρατηγικές αποθήκευσης στην κρυφή μνήμη Ασκήσεις με χρήση DataFrame API SparkSQL DataFrame: επιλογή, φίλτρο, ομάδα, ταξινόμηση UDF (συνάρτηση καθορισμένη από το χρήστη) Εξέταση ροής API DataSet

Χρησιμοποιώντας το περιβάλλον AWS κατανοήστε την ανάπτυξη (πρακτικό εργαστήριο):

    Βασικά στοιχεία του AWS Glue Κατανόηση των διαφορών μεταξύ AWS EMR και AWS Glue Παράδειγμα εργασιών και στα δύο περιβάλλοντα Κατανόηση πλεονεκτημάτων και μειονεκτημάτων

Επιπλέον:

    Εισαγωγή στην ενορχήστρωση Apache Airflow

Requirements

Ικανότητες προγραμματισμού (κατά προτίμηση python, scala)

SQL βασικά

 21 Hours

Number of participants



Price per participant

Testimonials (3)

Related Courses

Introduction to Graph Computing

28 Hours

Magellan: Geospatial Analytics on Spark

14 Hours

Apache Spark SQL

7 Hours

A Practical Introduction to Stream Processing

21 Hours

Big Data Analytics in Health

21 Hours

Apache Spark for .NET Developers

21 Hours

Hadoop and Spark for Administrators

35 Hours

Related Categories