Course Outline

Ενότητα 1: Εισαγωγή στο Hadoop

  • Ιστορία του Hadoop, κoncepts
  • eco system
  • distributions
  • υψηλό επίπεδο αρχιτεκτονικής
  • μύθοι του Hadoop
  • αντιμετώπιση προβλημάτων του Hadoop
  • hardware / software
  • lab : πρώτος ελέγχος στο Hadoop

Ενότητα 2: HDFS

  • Σχεδιασμός και αρχιτεκτονική
  • έννοιες (horizontal scaling, replication, data locality, rack awareness)
  • Daemons : Namenode, Secondary namenode, Data node
  • συνδέσεις / heart-beats
  • τακτότητα δεδομένων
  • πρόσβαση/γραφή path
  • Namenode High Availability (HA), Federation
  • labs : Διαλογός με το HDFS

Ενότητα 3: Μείωση χάρτη

  • έννοιες και αρχιτεκτονική
  • δαίμονες (MRV1) : ανιχνευτής εργασιών / παρακολούθησης εργασιών
  • φάσεις : πρόγραμμα οδήγησης, χαρτογράφηση, ανακάτεμα/ταξινόμηση, μειωτήρας
  • Σμίκρυνση χάρτη Έκδοση 1 και έκδοση 2 (YARN)
  • Εσωτερικά του Map Reduce
  • Εισαγωγή στο πρόγραμμα Java Map Reduce
  • labs: Εκτέλεση δείγματος προγράμματος MapReduce

Ενότητα 4 : Χοίρος

  • pig vs java map μείωση
  • ροή εργασίας χοίρου
  • γουρουνάκι λατινική γλώσσα
  • ETL με το Pig
  • Μεταμορφώσεις & Ενώσεις
  • Λειτουργίες καθορισμένες από το χρήστη (UDF)
  • εργαστήρια: σύνταξη σεναρίων Pig για ανάλυση δεδομένων

Ενότητα 5: Hive

  • αρχιτεκτονική και σχεδιασμός
  • τύπους δεδομένων
  • SQL υποστήριξη σε Hive
  • Δημιουργία Hive πινάκων και αναζήτηση
  • χωρίσματα
  • ενώνει
  • επεξεργασία κειμένου
  • εργαστήρια : διάφορα εργαστήρια για την επεξεργασία δεδομένων με Hive

Ενότητα 6: HBase

  • έννοιες και αρχιτεκτονική
  • HBase vs RDBMS vs Cassandra
  • HBase Java API
  • Time series data on HBase
  • σχεδιασμός schema
  • labs : Διαλογός με το HBase χρησιμοποιώντας shell; προγραμματισμός στο HBase Java API ; άσκηση σχεδιασμού schema

Requirements

  • άνετα με Java γλώσσα προγραμματισμού (οι περισσότερες ασκήσεις προγραμματισμού είναι σε java)
  • άνετα σε περιβάλλον Linux (να είναι σε θέση να πλοηγηθεί στη γραμμή εντολών Linux, να επεξεργαστεί αρχεία χρησιμοποιώντας vi / nano)

Εργαστηριακό περιβάλλον

Zero Install : Δεν χρειάζεται να εγκαταστήσετε λογισμικό Hadoop στα προσωπικά σας συστήματα! Θα παρέχεται ένα λειτουργικό κλάστερ Hadoop για τους μαθητές.

Οι μαθητές θα χρειαστούν τα ακόλουθα

  • ένα SSH πελάτη (Linux και Mac έχουν ήδη ssh πελάτες, για Windows συμβουλεύεται το Putty)
  • ένα πρόγραμμα περιήγησης για πρόσβαση στο κλάστερ, συμβουλεύεται το Firefox
 28 Hours

Number of participants


Price per participant

Testimonials (5)

Upcoming Courses

Related Categories