Course Outline

1: HDFS (17%)

    Περιγράψτε τη λειτουργία των HDFS Daemons Περιγράψτε την κανονική λειτουργία ενός συμπλέγματος Apache Hadoop, τόσο στην αποθήκευση δεδομένων όσο και στην επεξεργασία δεδομένων. Προσδιορίστε τα τρέχοντα χαρακτηριστικά των υπολογιστικών συστημάτων που παρακινούν ένα σύστημα όπως το Apache Hadoop. Ταξινόμηση των κύριων στόχων της σχεδίασης HDFS Δεδομένου ενός σεναρίου, προσδιορισμός της κατάλληλης περίπτωσης χρήσης για Ομοσπονδία HDFS Προσδιορισμός στοιχείων και δαίμονα ενός συμπλέγματος HDFS HA-Quorum Αναλύστε το ρόλο της ασφάλειας HDFS (Kerberos) Προσδιορίστε την καλύτερη επιλογή σειριοποίησης δεδομένων για ένα δεδομένο σενάριο Περιγράψτε ανάγνωση του αρχείου και διαδρομές εγγραφής Προσδιορίστε τις εντολές για χειρισμό αρχείων στο Hadoop Κέλυφος συστήματος αρχείων

2: YARN και MapReduce έκδοση 2 (MRv2) (17%)

    Κατανόηση του τρόπου με τον οποίο η αναβάθμιση ενός συμπλέγματος από Hadoop 1 σε Hadoop 2 επηρεάζει τις ρυθμίσεις συμπλέγματος Κατανόηση του τρόπου ανάπτυξης του MapReduce v2 (MRv2 / YARN), συμπεριλαμβανομένων όλων των δαιμόνων του YARN Κατανόηση της βασικής στρατηγικής σχεδίασης για το MapReduce v2 (MRv2) Καθορισμός του τρόπου με τον οποίο το YARN χειρίζεται τις κατανομές πόρων Προσδιορίστε τη ροή εργασιών της εργασίας MapReduce που εκτελείται στο YARN Καθορίστε ποια αρχεία πρέπει να αλλάξετε και πώς για να μεταφέρετε ένα σύμπλεγμα από το MapReduce έκδοση 1 (MRv1) στην έκδοση MapReduce 2 (MRv2) που εκτελείται στο YARN.

3: Hadoop Σχεδιασμός συμπλεγμάτων (16%)

    Κύρια σημεία που πρέπει να λάβετε υπόψη κατά την επιλογή του υλικού και των λειτουργικών συστημάτων που θα φιλοξενήσουν ένα σύμπλεγμα Apache Hadoop. Αναλύστε τις επιλογές κατά την επιλογή ενός λειτουργικού συστήματος Κατανόηση συντονισμού πυρήνα και εναλλαγής δίσκου Δεδομένου ενός σεναρίου και μοτίβου φόρτου εργασίας, προσδιορίστε μια διαμόρφωση υλικού κατάλληλης για το σενάριο Δεδομένου ενός σεναρίου, προσδιορίστε τα στοιχεία οικοσυστήματος που χρειάζεται να εκτελεστεί το σύμπλεγμα σας προκειμένου να εκπληρώσει το μέγεθος του συμπλέγματος SLA: δεδομένου ενός σεναρίου και της συχνότητας εκτέλεσης, προσδιορίστε τις ιδιαιτερότητες για το φόρτο εργασίας, συμπεριλαμβανομένης της CPU, της μνήμης, της αποθήκευσης, του μεγέθους και της διαμόρφωσης δίσκου I/O δίσκου, συμπεριλαμβανομένων των απαιτήσεων JBOD έναντι RAID, SAN, εικονικοποίησης και μεγέθους δίσκου σε τοπολογίες δικτύου συμπλέγματος: κατανοούν τη χρήση δικτύου στο Hadoop (τόσο για HDFS όσο και για MapReduce) και προτείνουν ή προσδιορίζουν βασικά στοιχεία σχεδίασης δικτύου για ένα δεδομένο σενάριο

4: Hadoop Εγκατάσταση και διαχείριση συμπλέγματος (25%)

    Δεδομένου ενός σεναρίου, προσδιορίστε πώς θα χειριστεί το σύμπλεγμα αστοχίες δίσκου και μηχανήματος Ανάλυση διαμόρφωσης καταγραφής και μορφή αρχείου διαμόρφωσης καταγραφής Κατανόηση των βασικών μετρήσεων Hadoop και παρακολούθησης υγείας συμπλέγματος Προσδιορισμός της λειτουργίας και του σκοπού των διαθέσιμων εργαλείων για την παρακολούθηση συμπλέγματος Να είστε σε θέση να εγκαταστήσετε όλα τα στοιχεία οικοσυστήματος στο CDH 5, συμπεριλαμβανομένων (αλλά δεν περιορίζονται σε): Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive και Pig Προσδιορίστε τη λειτουργία και τον σκοπό των διαθέσιμων εργαλείων για τη διαχείριση του συστήματος αρχείων Apache Hadoop

5: Πόρος Management (10%)

    Κατανόηση των συνολικών στόχων σχεδίασης καθενός από τους Hadoop χρονοπρογραμματιστές Δεδομένου ενός σεναρίου, προσδιορισμός του τρόπου με τον οποίο το FIFO Scheduler εκχωρεί πόρους συμπλέγματος Με δεδομένο ένα σενάριο, καθορίστε τον τρόπο με τον οποίο το Fair Scheduler κατανέμει πόρους συμπλέγματος στο YARN Δεδομένου ενός σεναρίου, προσδιορίστε πώς ο Προγραμματιστής χωρητικότητας κατανέμει τους πόρους του συμπλέγματος

6: Παρακολούθηση και καταγραφή (15%)

    Κατανόηση των λειτουργιών και των χαρακτηριστικών των δυνατοτήτων συλλογής μετρήσεων του Hadoop Αναλύστε τις διεπαφές Web NameNode και JobTracker Κατανόηση του τρόπου παρακολούθησης των Daemons του συμπλέγματος Προσδιορισμός και παρακολούθηση της χρήσης της CPU στους κύριους κόμβους Περιγραφή του τρόπου παρακολούθησης της ανταλλαγής και της κατανομής μνήμης σε όλους τους κόμβους Προσδιορισμός του τρόπου προβολής και διαχείριση των αρχείων καταγραφής του Hadoop Ερμηνεύστε ένα αρχείο καταγραφής

Requirements

  • Βασικές Linux δεξιότητες διοίκησης
  • Βασικές δεξιότητες προγραμματισμού
  35 Hours
 

Number of participants


Starts

Ends


Dates are subject to availability and take place between 09:30 and 16:30.
Open Training Courses require 5+ participants.

Testimonials (3)

Related Courses

Introduction to Data Visualization with Tidyverse and R

  7 Hours

Introduction to R

  21 Hours

Related Categories