Course Outline

Εισαγωγή

Κατανόηση της αρχιτεκτονικής και των βασικών εννοιών του Hadoop

Κατανόηση του Hadoop Κατανεμημένου Συστήματος Αρχείων (HDFS)

    Επισκόπηση του HDFS και του αρχιτεκτονικού του σχεδίου Αλληλεπίδραση με το HDFS Εκτέλεση βασικών λειτουργιών αρχείων στο HDFS Επισκόπηση της εντολής HDFS Αναφορά Επισκόπηση του Snakebite Εγκατάσταση του Snakebite με χρήση της βιβλιοθήκης πελάτη Snakebite με χρήση του προγράμματος-πελάτη CLI

Εκμάθηση του μοντέλου προγραμματισμού MapReduce με Python

    Επισκόπηση του MapReduce Programming Μοντέλο Κατανόηση της ροής δεδομένων στο MapReduce Framework Τυχαία αναπαραγωγή και μείωση ταξινόμησης
Χρήση του Hadoop Streaming Utility Κατανόηση του τρόπου λειτουργίας του Hadoop Streaming Utility
  • Επίδειξη: Υλοποίηση της εφαρμογής WordCount στην Python
  • Χρήση της βιβλιοθήκης mrjob Επισκόπηση του mrjob
  • Εγκατάσταση mrjob
  • Επίδειξη: Υλοποίηση του αλγόριθμου WordCount με χρήση mrjob
  • Κατανόηση του τρόπου λειτουργίας μιας εργασίας MapReduce Written with the mrjob Library
  • Εκτέλεση εφαρμογής MapReduce με το mrjob
  • Πρακτικά: Υπολογισμός κορυφαίων μισθών με χρήση του mrjob
  • Εκμάθηση Χοίρου με Python
  • Επισκόπηση του Pig Demo: Εφαρμογή του WordΑλγόριθμου Καταμέτρησης στο Pig Ρύθμιση παραμέτρων και εκτέλεση Pig Scripts και Pig statements Χρήση των τρόπων εκτέλεσης Pig Χρήση του Pig Interactive Mode Χρήση του Pic Batch Mode
  • Κατανόηση των βασικών εννοιών της λατινικής γλώσσας χοίρου με χρήση δηλώσεων

      Τα δεδομένα φορτώνονται
    Μετασχηματισμός Δεδομένων
  • Αποθήκευση Δεδομένων
  • Επέκταση της λειτουργικότητας του Pig με Python UDF Καταχωρίζοντας ένα Python αρχείο UDF
  • Επίδειξη: A Simple Python UDF
  • Επίδειξη: Χειρισμός συμβολοσειράς με χρήση Python UDF
  • Πρακτικά: Υπολογισμός των 10 πιο πρόσφατων ταινιών με χρήση Python UDF
  • Χρήση Spark και PySpark
  • Επισκόπηση της επίδειξης Spark: Εφαρμογή του αλγόριθμου WordCount στο PySpark Επισκόπηση του PySpark με χρήση διαδραστικού κελύφους που υλοποιεί αυτόνομες εφαρμογές
  • Εργασία με ανθεκτικά κατανεμημένα σύνολα δεδομένων (RDD) Δημιουργία RDD από μια συλλογή Python
  • Δημιουργία RDD από αρχεία
  • Υλοποίηση μετασχηματισμών RDD

      Εφαρμογή δράσεων RDD
    Hands-on: Εφαρμογή προγράμματος κειμένου Search για τίτλους ταινιών με το PySpark
  • Διαχείριση ροής εργασιών με Python
  • Επισκόπηση των Apache Oozie και Luigi Εγκατάσταση του Luigi Κατανόηση των εννοιών ροής εργασίας Luigi Εργασίες Παράμετροι στόχοι
  • Επίδειξη: Εξέταση μιας ροής εργασίας που υλοποιεί τον αλγόριθμο WordCount
  • Εργασία με Hadoop ροές εργασίας που ελέγχουν το MapReduce και το Pig Jobs χρησιμοποιώντας τα αρχεία διαμόρφωσης του Luigi
  • Εργασία με το MapReduce στο Luigi
  • Δουλεύοντας με το Pig στο Luigi
  • Περίληψη και Συμπέρασμα

    Requirements

    • Εμπειρία στον προγραμματισμό Python
    • Βασική εξοικείωση με το Hadoop
     28 Hours

    Number of participants



    Price per participant

    Testimonials (3)

    Related Courses

    Apache Ambari: Efficiently Manage Hadoop Clusters

    21 Hours

    Hadoop For Administrators

    21 Hours

    Samza for Stream Processing

    14 Hours

    Datameer for Data Analysts

    14 Hours

    Related Categories