Course Outline

Εισαγωγή

    Εισαγωγή στο Cloud Computing και λύσεις Big Data Επισκόπηση του Apache Hadoop Χαρακτηριστικά και Αρχιτεκτονική

Ρύθμιση Hadoop

    Σχεδιασμός συμπλέγματος Hadoop (on-premise, cloud, κ.λπ.) Επιλογή του λειτουργικού συστήματος και της διανομής Hadoop Πόρων παροχής (υλικό, δίκτυο, κ.λπ.) Λήψη και εγκατάσταση του λογισμικού Προσαρμογή μεγέθους του συμπλέγματος για ευελιξία

Εργασία με HDFS

    Κατανόηση του Hadoop Κατανεμημένου συστήματος αρχείων (HDFS) Επισκόπηση της αναφοράς εντολών HDFS Πρόσβαση στο HDFS Εκτέλεση βασικών λειτουργιών αρχείων σε HDFS χρησιμοποιώντας το S3 ως συμπλήρωμα του HDFS

Επισκόπηση του MapReduce

    Κατανόηση της ροής δεδομένων στο MapReduce Framework Map, Shuffle, Sort and Reduce Demo: Computing Top Salaries

Εργασία με YARN

    Κατανόηση της διαχείρισης πόρων στο Hadoop Εργασία με ResourceManager, NodeManager, Application Master Scheduling εργασίες στο YARN Scheduling για μεγάλους αριθμούς κόμβων και συμπλεγμάτων Επίδειξη: Προγραμματισμός εργασιών

Ενσωμάτωση Hadoop με το Spark

    Ρύθμιση χώρου αποθήκευσης για το Spark (HDFS, Amazon, S3, NoSQL, κ.λπ.) Κατανόηση Ελαστικών Κατανεμημένων Συνόλων Δεδομένων (RDD) Δημιουργία επίδειξης RDD Implementing RDD Transformations: Εφαρμογή προγράμματος αναζήτησης κειμένου για τίτλους ταινιών

Διαχείριση ενός συμπλέγματος Hadoop

    Παρακολούθηση Hadoop Ασφάλιση συμπλέγματος Hadoop Προσθήκη και αφαίρεση κόμβων Εκτέλεση σημείου αναφοράς απόδοσης Συντονισμός συμπλέγματος Hadoop για βελτιστοποίηση της απόδοσης Δημιουργία αντιγράφων ασφαλείας, ανάκτηση και σχεδιασμός επιχειρηματικής συνέχειας Διασφάλιση υψηλής διαθεσιμότητας (HA)

Αναβάθμιση και μετεγκατάσταση ενός Hadoop συμπλέγματος

    Αξιολόγηση απαιτήσεων φόρτου εργασίας Αναβάθμιση Hadoop Μετάβαση από εσωτερική εγκατάσταση στο cloud και αντίστροφα Ανάκτηση από αποτυχίες

Αντιμετώπιση προβλημάτων

Περίληψη και Συμπέρασμα

Requirements

  • Εμπειρία διαχείρισης συστήματος
  • Εμπειρία με τη γραμμή εντολών Linux
  • Κατανόηση των εννοιών των μεγάλων δεδομένων

Ακροατήριο

  • διαχειριστές συστήματος
  • DBA
 35 Hours

Number of participants



Price per participant

Testimonials (7)

Related Courses

Introduction to Graph Computing

28 Hours

Apache Ambari: Efficiently Manage Hadoop Clusters

21 Hours

Magellan: Geospatial Analytics on Spark

14 Hours

Apache Spark SQL

7 Hours

A Practical Introduction to Stream Processing

21 Hours

Big Data Analytics in Health

21 Hours

Related Categories