Εξέλιξη Κομματιού

Τμήμα 1: Εισαγωγή στο Hadoop

  • Ιστορία, εννοιές του Hadoop
  • Οικοσύστημα
  • Κατανομές
  • Επίπεδη αρχιτεκτονική
  • Μυθολογίες Hadoop
  • Προκλήσεις Hadoop
  • Υπολογιστικό / λογισμικό
  • Εργαστήριο : πρώτη γνωριμία με το Hadoop

Τμήμα 2: HDFS

  • Σχέδιο και αρχιτεκτονική
  • Εννοιές (οριζόντια διαστολή, αποδοχή, τοπικότητα δεδομένων, ευαισθησία ρακί)
  • Δαίμονες : Namenode, Secondary namenode, Data node
  • Επικοινωνίες / κόκκινες καρδιές (heart-beats)
  • Ακεραιότητα δεδομένων
  • Μονοπάτι ανάγνωση / γραφή
  • Η υψηλή διαθεσιμότητα (High Availability) του Namenode, Συνομοσπονδία (Federation)
  • Εργαστήρια : αλληλεπίδραση με HDFS

Τμήμα 3: MapReduce

  • Εννοιές και αρχιτεκτονική
  • Δαίμονες (MRV1) : jobtracker / tasktracker
  • Φάσεις : driver, mapper, shuffle/sort, reducer
  • MapReduce Έκδοση 1 και Έκδοση 2 (YARN)
  • Εσωτερικές λεπτομέρειες του MapReduce
  • Εισαγωγή στο πρόγραμμα Java MapReduce
  • Εργαστήρια : εκτέλεση δείγματος προγράμματος MapReduce

Τμήμα 4: Pig

  • Pig vs Java MapReduce
  • Ροή εργασίας του Pig
  • Γλώσσα προγραμματισμού Pig Latin
  • ETL με Pig
  • Μετασχηματισμοί & Συνδέσεις (Joins)
  • Ελαφρύσματα χρήστη (User Defined Functions - UDF)
  • Εργαστήρια : γράφοντας σενάρια Pig για την ανάλυση δεδομένων

Τμήμα 5: Hive

  • Αρχιτεκτονική και σχεδιασμός
  • Τύποι δεδομένων
  • Υποστήριξη SQL στο Hive
  • Δημιουργία και ερώτηση πινάκων Hive
  • Καταμερισμοί (partitions)
  • Συνδέσεις (joins)
  • Επεξεργασία κειμένου
  • Εργαστήρια : διάφορα εργαστήρια για την επεξεργασία δεδομένων με Hive

Τμήμα 6: HBase

  • Εννοιές και αρχιτεκτονική
  • HBase vs RDBMS vs Cassandra
  • HBase Java API
  • Χρονολογικά δεδομένα στο HBase
  • Σχεδιασμός πρότυπου (schema)
  • Εργαστήρια : αλληλεπίδραση με το HBase χρησιμοποιώντας shell; προγραμματισμός στο Java API του HBase; Άσκηση σχεδιασμού πρότυπου (schema)

Απαιτήσεις

  • να είναι εξοικειωμένος με τη γλώσσα προγραμματισμού Java (τα περισσότερα ασκήματα προγραμματισμού είναι σε Java)
  • να είναι εξοικειωμένος με το περιβάλλον Linux (να μπορεί να διαβιβάζεται στη γραμμή εντολών του Linux, να επεξεργάζεται αρχεία χρησιμοποιώντας vi ή nano)

Περιβάλλον Εργαστήριου

Μην διαθέτετε τίποτα : Δεν υπάρχει ανάγκη να εγκαινιάζετε λογισμικό Hadoop στους υπολογιστές των μαθητών! Ένα διαδραστικό cluster Hadoop θα παρέχεται για τους μαθητές.

Οι μαθητές θα χρειάζονται τα εξής

  • ένα SSH client (Linux και Mac έχουν ήδη ssh clients, για Windows προτείνεται το Putty)
  • ένα πρόγραμμα περιήγησης για να έχουν πρόσβαση στο cluster, συνιστάται το Firefox
 28 Ώρες

Αριθμός συμμετέχοντων


Τιμή ανά συμμετοχαστή

Σχόλια (5)

Εφεξής Μαθήματα

Σχετικές Κατηγορίες