Course Outline

  • Εισαγωγή
    • Hadoop Ιστορία, κoncepts
    • Περιβάλλον
    • Διανομές
    • Γενική αρχιτεκτονική
    • Hadoop μύθοι
    • Hadoop προκλήσεις (Hardware / Software)
    • Εργαστήρια: συζήτηση για τα Big Data projects και problems
  • Πλάνος και εγκατάσταση
    • Επιλογή λογισμικού, Hadoop διανομών
    • Μέγεθος του κλάστρου, προβολή μεγάλων αξιών
    • Επιλογή hardware και network
    • Rack topology
    • Εγκατάσταση
    • Multi-tenancy
    • Διεύθυνση και εγγραφές αποδόσεων
    • Benchmarking
    • Εργαστήρια: εγκατάσταση cluster, κύκλου performance benchmarks
  • Ενεργείς των HDFS
    • Συνόψεις (horizontal scaling, replication, data locality, rack awareness)
    • Nodes και daemons (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Health monitoring
    • Αποδοτική διαχείριση μέσω γραμμής εντολών και browser-based
    • Πρόσθεση αποθήκευσης, αντικατάσταση αδύνατων σκληρών δίσκων
    • Εργαστήρια: εξοικείωση με HDFS command lines
  • Διαχείριση δεδομένων
    • Flume για καταγραφές και άλλου εισαγωγής δεδομένων στο HDFS
    • Sqoop για εισαγωγή από SQL databases στο HDFS, καθώς και εξαγωγή πίσω στο SQL
    • Hadoop data warehousing με Hive
    • Αντικατάσταση δεδομένων μεταξύ clusters (distcp)
    • Χρήση του S3 ως παρεκθετικό στο HDFS
    • Πρακτικές και αρχιτεκτονικές δεδομένων εισαγωγής
    • Εργαστήρια: εγκατάσταση και χρήση Flume, τα ίδια για Sqoop
  • MapReduce operations και διαχείριση
    • Παράλληλος υπολογισμός πριν το mapreduce: σύγκριση HPC με Hadoop administration
    • MapReduce cluster loads
    • Nodes και Daemons (JobTracker, TaskTracker)
    • MapReduce UI walk through
    • Ταξινόμηση MapReduce
    • Job config
    • Προσαρμογή του MapReduce
    • Fool-proofing MR: πού να διατυπώνεις στους προγραμματιστές
    • Εργαστήρια: τηλεδίκωση MapReduce examples
  • YARN: νέα αρχιτεκτονική και νέες δυνατότητες
    • YARN design goals και implementation architecture
    • Νέοι παίκτες: ResourceManager, NodeManager, Application Master
    • Εγκατάσταση του YARN
    • Job scheduling υπό YARN
    • Εργαστήρια: εξέταση job scheduling
  • Προβληματικά περιθώρια
    • Διαχείριση hardware
    • Μεγάλους servers cluster monitoring
    • Πρόσθεση και αφαίρεση server, προσβολή Hadoop
    • Backup, recovery και business continuity planning
    • Oozie job workflows
    • Hadoop high availability (HA)
    • Hadoop Federation
    • Ασφάλεια του cluster με Kerberos
    • Εργαστήρια: στοιχεία monitoring
  • Επιλογικά πεδία
    • Cloudera Manager για διαχείριση, μόντερ και συνήθεις κατευθύνσεις; εγκατάσταση, χρήση. Σε αυτό το πεδίο, όλες οι εξετάσεις και εργασίες επιχειρείται σε περιβάλλον Cloudera distribution (CDH5)
    • Ambari για διαχείριση, μόντερ και συνήθεις κατευθύνσεις; εγκατάσταση, χρήση. Σε αυτό το πεδίο, όλες οι εξετάσεις και εργασίες επιχειρείται σε Ambari cluster manager και Hortonworks Data Platform (HDP 2.0)

Requirements

  • αντιμετώπιση βασικών ζητημάτων διαχείρισης συστήματος Linux
  • βασικές εξειδικευμένες γνώσεις περιγραφής

Η γνώση του Hadoop και των Παραλληλοποιημένων Υπολογιστών δεν είναι απαραίτητη, αλλά θα παρουσιαστεί και εξηγηθεί στο μάθημα.

Περιβάλλον Laboratorium

Μηδενική Εγκατάσταση : Δεν χρειάζεται να εγκαταστήσετε λογισμικό hadoop στους πολυποικιλότυπους μηχανές! Θα προσφέρεται κλάστρο Hadoop για τους φοιτητές.

Οι φοιτητές θα χρειαστούν:

  • SSH πελάτης (Linux και Mac ήδη διαθέτουν SSH πελάτες, για Windows είναι συμβουλευτικό το Putty)
  • πρόσβαση με browser στο κλάστρο. Προτείνουμε το Firefox browser με εγκατεστημένη διεύθυνση FoxyProxy extension
 21 Hours

Number of participants


Price per participant

Testimonials (5)

Upcoming Courses

Related Categories