Course Outline

    Εισαγωγή Hadoop ιστορία, έννοιες Διανομές οικοσυστήματος Αρχιτεκτονική υψηλού επιπέδου Hadoop μύθοι Hadoop προκλήσεις (υλισμικό / λογισμικό) Εργαστήρια: συζητήστε τα έργα και τα προβλήματά σας Big Data
Σχεδιασμός και εγκατάσταση Επιλογή λογισμικού, Hadoop διανομές Προσαρμογή μεγέθους του συμπλέγματος, προγραμματισμός ανάπτυξης Επιλογή υλικού και δικτύου Τοπολογία Rack Εγκατάσταση Δομή καταλόγου πολλαπλών μισθώσεων, αρχεία καταγραφής Συγκριτική αξιολόγηση Εργαστήρια: εγκατάσταση συμπλέγματος, εκτέλεση κριτηρίων απόδοσης
    Έννοιες λειτουργιών HDFS (οριζόντια κλιμάκωση, αναπαραγωγή, τοποθεσία δεδομένων, επίγνωση rack) Κόμβοι και δαίμονες (NameNode, Secondary NameNode, HA Standby NameNode, DataNode) Παρακολούθηση υγείας Γραμμή εντολών και διαχείριση βάσει προγράμματος περιήγησης Προσθήκη αποθήκευσης, αντικατάσταση ελαττωματικών μονάδων δίσκου Labs: εξοικείωση με γραμμές εντολών HDFS
Απορρόφηση δεδομένων Flume για αρχεία καταγραφής και απορρόφηση άλλων δεδομένων στο HDFS Sqoop για εισαγωγή από SQL βάσεις δεδομένων στο HDFS, καθώς και εξαγωγή πίσω στο SQL Hadoop αποθήκευση δεδομένων με Hive Αντιγραφή δεδομένων μεταξύ συμπλεγμάτων (distcp) Χρησιμοποιώντας το S3 ως συμπληρωματικό στα δεδομένα HDFS βέλτιστες πρακτικές και αρχιτεκτονικές απορρόφησης Labs: εγκατάσταση και χρήση του Flume, το ίδιο και για το Sqoop
    Λειτουργίες και διαχείριση MapReduce Παράλληλος υπολογισμός πριν από τη μείωση του χάρτη: συγκρίνετε HPC έναντι Hadoop διαχείρισης MapReduce φορτία συμπλέγματος Κόμβοι και δαίμονες (JobTracker, TaskTracker) Διαμόρφωση MapReduce διεπαφής χρήστη Διαμόρφωση εργασίας Βελτιστοποίηση του MapReduce Αντιμετώπιση ανόητων MR: τι να πει στους προγραμματιστές που τρέχουν: Παραδείγματα MapReduce
YARN: νέα αρχιτεκτονική και νέες δυνατότητες Στόχοι σχεδιασμού YARN και αρχιτεκτονική υλοποίησης Νέοι παράγοντες: ResourceManager, NodeManager, Application Master Εγκατάσταση YARN Προγραμματισμός εργασιών στο YARN Labs: διερεύνηση προγραμματισμού εργασιών
    Προηγμένα θέματα Παρακολούθηση υλικού Παρακολούθηση συμπλέγματος Προσθήκη και αφαίρεση διακομιστών, αναβάθμιση Hadoop Δημιουργία αντιγράφων ασφαλείας, ανάκτηση και σχεδιασμός επιχειρησιακής συνέχειας Ροές εργασιών Oozie Hadoop υψηλή διαθεσιμότητα (HA) Hadoop Ομοσπονδία Ασφάλιση του συμπλέγματος σας με τα Kerberos Labs: ρύθμιση παρακολούθησης
Προαιρετικά κομμάτια Cloudera Manager για διαχείριση συμπλέγματος, παρακολούθηση και καθημερινές εργασίες. εγκατάσταση, χρήση. Σε αυτό το κομμάτι, όλες οι ασκήσεις και τα εργαστήρια εκτελούνται εντός του περιβάλλοντος διανομής Cloudera (CDH5) Ambari για διαχείριση συμπλέγματος, παρακολούθηση και εργασίες ρουτίνας. εγκατάσταση, χρήση. Σε αυτό το κομμάτι, όλες οι ασκήσεις και τα εργαστήρια εκτελούνται στο πλαίσιο του διαχειριστή συστάδων Ambari και της πλατφόρμας δεδομένων Hortonworks (HDP 2.0)

Requirements

  • άνετα με τη βασική διαχείριση συστήματος Linux
  • βασικές δεξιότητες σεναρίου

Δεν απαιτείται γνώση του Hadoop και του Κατανεμημένου Υπολογισμού, αλλά θα εισαχθεί και θα εξηγηθεί στο μάθημα.

Εργαστηριακό περιβάλλον

Zero Install : Δεν χρειάζεται να εγκαταστήσετε λογισμικό hadoop στα μηχανήματα των μαθητών! Θα παρασχεθεί ένα εργασιακό σύμπλεγμα hadoop για τους μαθητές.

Οι μαθητές θα χρειαστούν τα ακόλουθα

  • ένας πελάτης SSH (Linux και ο Mac έχουν ήδη προγράμματα-πελάτες ssh, για το Windows Putty συνιστάται)
  • ένα πρόγραμμα περιήγησης για πρόσβαση στο σύμπλεγμα. Συνιστούμε το πρόγραμμα περιήγησης Firefox με εγκατεστημένη την επέκταση FoxyProxy
 21 Hours

Number of participants



Price per participant

Testimonials (3)

Related Courses

Apache Ambari: Efficiently Manage Hadoop Clusters

21 Hours

Samza for Stream Processing

14 Hours

Datameer for Data Analysts

14 Hours

Related Categories