Course Outline

1.1Hadoop Έννοιες

1.1.1 HDFS

    Σχεδιασμός της διεπαφής γραμμής εντολών HDFS Hadoop Σύστημα αρχείων

1.1.2 Συστάδες

    Ανατομία ενός συμπλέγματος Mater Node / Slave node Όνομα Κόμβος / Κόμβος δεδομένων

1.2 Χειρισμός δεδομένων

1.2.1 Αναλυτικά το MapReduce

    Φάση χάρτη Μείωση τυχαίας φάσης

1.2.2Analytics με μείωση χάρτη

    Group-By with MapReduce Κατανομές συχνότητας και ταξινόμηση με MapReduce Αποτελέσματα σχεδίασης (GNU Plot) Ιστογράμματα με MapReduce Διασκορπίστε γραφικά με MapReduce Ανάλυση σύνθετων συνόλων δεδομένων Καταμέτρηση με MapReduce και Συνδυαστές Δημιουργία αναφορών

 

1.2.3 Καθαρισμός δεδομένων

    Καθαρισμός εγγράφου Αναζήτηση ασαφούς συμβολοσειράς Σύνδεση εγγραφών / κατάργηση διπλότυπων δεδομένων Μετασχηματισμός και ταξινόμηση ημερομηνιών συμβάντων Επικύρωση αξιοπιστίας πηγής Περικοπή Outliers

1.2.4 Εξαγωγή και Μετασχηματισμός Δεδομένων

    Μετασχηματισμός αρχείων καταγραφής Χρήση του Apache Pig για φιλτράρισμα Χρήση του Apache Pig για ταξινόμηση Χρήση του Apache Pig για τη συνεδρία

1.2.5 Προηγμένες συνδέσεις

    Σύνδεση δεδομένων στο Mapper με χρήση MapReduce Σύνδεση δεδομένων με χρήση αντιγραφής Apache Pig Σύνδεση ταξινομημένων δεδομένων χρησιμοποιώντας συγχώνευση Apache Pig Σύνδεση λοξής σύνδεσης με χρήση λοξής σύνδεσης Apache Pig Χρήση σύνδεσης στην πλευρά χάρτη στον Apache Hive Χρήση βελτιστοποιημένων πλήρους εξωτερικών συνδέσεων στον Apache [1 ] Σύνδεση δεδομένων με χρήση εξωτερικού χώρου αποθήκευσης κλειδιού

1.3 Τεχνικές διάγνωσης και βελτιστοποίησης απόδοσης

    Χάρτης Διερεύνηση αιχμών στα δεδομένα εισόδου Προσδιορισμός προβλημάτων λοξότητας δεδομένων από την πλευρά του χάρτη Διακίνηση εργασιών χάρτη Μικρά αρχεία Αρχεία που δεν χωρίζονται
Μειώστε Πολύ λίγους ή πάρα πολλούς μειωτήρες
  • Μειώστε τα προβλήματα λοξής πλευράς δεδομένων
  • Μειώστε την απόδοση των εργασιών
  • Αργή ανακάτεμα και ταξινόμηση
  • Ανταγωνιστικές εργασίες και περιορισμός του προγραμματιστή
  • Στοίβες απορρίψεων και μη βελτιστοποιημένος κώδικας
  • Βλάβες υλικού
  • Διαμάχη CPU
  • Εργασίες Εξαγωγή και οπτικοποίηση των χρόνων εκτέλεσης εργασιών
  • Προφίλ του χάρτη σας και μείωση εργασιών
  • Αποφύγετε τον μειωτήρα
  • Φίλτρο και έργο
  • Χρησιμοποιώντας τον συνδυαστή
  • Γρήγορη ταξινόμηση με συγκριτές
  • Συλλογή λοξών δεδομένων
  • Μειώστε τον μετριασμό των λοξών
  • Requirements

    Οι συμμετέχοντες δεν απαιτείται να έχουν κάποια συγκεκριμένη δεξιότητα, καθώς η εκπαίδευση επικεντρώνεται στις δεξιότητες των τελικών χρηστών τόσο για τη διαχείριση όσο και για τη χειραγώγηση δεδομένων στο Apache Hadoop

      21 Hours

    Number of participants



    Price per participant

    Testimonials (3)

    Related Courses

    Apache Ambari: Efficiently Manage Hadoop Clusters

      21 Hours

    Hadoop For Administrators

      21 Hours

    Hadoop for Project Managers

      14 Hours

    Samza for Stream Processing

      14 Hours

    Datameer for Data Analysts

      14 Hours

    Related Categories