Εξέλιξη Κομματιού

  1. Συνοψιστική παρουσίαση Scala

    • Γρήγορη εισαγωγή στο Scala
    • Εργαστήρια : Εξερεύνηση του Scala
  2. Βασικά στο Spark

    • Ιστορία και υπόβαθρο
    • O Spark και το Hadoop
    • Εννοιές και αρχitecture του Spark
    • To οικοσύστημα του Spark (core, spark sql, mlib, streaming)
    • Εργαστήρια : Εγκατάσταση και εκτέλεση του Spark
  3. Πρώτη ματιά στο Spark

    • Εκτέλεση του Spark σε τοπικό rezhim
    • To web UI του Spark
    • To ενεργό σκέλος του Spark
    • Ανάλυση dataset – μέρος 1
    • Έλεγχος RDDs
    • Εργαστήρια: Εξερεύνηση του ενεργού σκέλους του Spark
  4. RDDs

    • Εννοιές RDDs
    • Μερίδες (Partitions)
    • Συγκεκριμένες επιχειρήσεις / μετασχηματισμοί RDDs
    • Τύποι RDDs
    • RDDs ζευγάρων κλειδιών-τιμών (Key-Value pairs)
    • MapReduce σε RDDs
    • Αποθήκευση και παραμονή
    • Εργαστήρια : Δημιουργία και εξέταση RDDs; Αποθήκευση RDDs
  5. Προγραμματισμός API του Spark

    • Εισαγωγή στην API του Spark / RDD API
    • Υποβολή πρώτου προγράμματος στο Spark
    • Debugging / logging
    • Ιδιότητες ρύθμισης
    • Εργαστήρια : Προγραμματισμός στην API του Spark, Υποβολή jobs
  6. Spark SQL

    • Υποστήριξη SQL στο Spark
    • Dataframes
    • Ορισμός πινάκων και εισαγωγή dataset
    • Ερώτηση data frames χρησιμοποιώντας SQL
    • Η μορφές αποθήκευσης : JSON / Parquet
    • Εργαστήρια : Δημιουργία και ερωτήσεις data frames; Αξιολόγηση μορφών δεδομένων
  7. MLlib

    • Εισαγωγή στο MLlib
    • Αλγόριθμοι MLlib
    • Εργαστήρια : Σύνταξη εφαρμογών MLib
  8. GraphX

    • Περιγραφή της βιβλιοθήκης GraphX
    • APIs GraphX
    • Εργαστήρια : Επεξεργασία δεδομένων γράφων χρησιμοποιώντας το Spark
  9. Spark Streaming

    • Εξαμηνιακή υποστήριξη ρύθμισης χρόνου
    • Αξιολόγηση πλατφόρμων ρύθμισης χρόνου
    • Επιχειρήσεις ρύθμισης χρόνου
    • Επιχειρήσεις sliding window
    • Εργαστήρια : Σύνταξη εφαρμογών ρύθμισης χρόνου στο Spark
  10. Spark και Hadoop

    • Εισαγωγή στο Hadoop (HDFS / YARN)
    • Hadoop + Spark architecture
    • Εκτέλεση του Spark στο Hadoop YARN
    • Επεξεργασία αρχείων HDFS χρησιμοποιώντας το Spark
  11. Απόδοση και ρύθμιση του Spark

    • Broadcast variables
    • Accumulators
    • Διαχείριση μνήμης και αποθήκευση
  12. Εφαρμογές του Spark

    • Παρακατάθεση του Spark σε παραγωγικό περιβάλλον
    • Υποδείγματα προτυπών παρακατάθεσης
    • Ρυθμίσεις
    • Παρακολούθηση
    • Επίλυση προβλημάτων

Απαιτήσεις

Υποχρεώνοντα προηγούμενα γνώσματα:

γνώση της Java / Scala / Python (τα εργαστήρια μας στα Scala και Python)
βασική κατανόηση του περιβάλλοντος ανάπτυξης Linux (ναυτική μέσω γραμμής εντολών / επεξεργασία αρχείων χρησιμοποιώντας το VI ή nano)

 21 Ώρες

Αριθμός συμμετέχοντων


Τιμή ανά συμμετοχαστή

Σχόλια (6)

Εφεξής Μαθήματα

Σχετικές Κατηγορίες