Course Outline

Ενότητα 1: Δεδομένα Management σε HDFS

    Διάφορες μορφές δεδομένων (JSON / Avro / Παρκέ) Σχέδια συμπίεσης Data Masking Labs : Ανάλυση διαφορετικών μορφών δεδομένων. επιτρέποντας τη συμπίεση

Ενότητα 2: Προχωρημένος Χοίρος

    Λειτουργίες που καθορίζονται από το χρήστη Εισαγωγή στις βιβλιοθήκες χοίρων (ElephantBird / Data-Fu) Φόρτωση σύνθετων δομημένων δεδομένων χρησιμοποιώντας Pig Pig Tuning Labs: προηγμένη δέσμη ενεργειών χοίρων, ανάλυση πολύπλοκων τύπων δεδομένων

Ενότητα 3 : Για προχωρημένους Hive

    Λειτουργίες που καθορίζονται από το χρήστη Συμπιεσμένοι πίνακες Hive Performance Tuning Labs : δημιουργία συμπιεσμένων πινάκων, αξιολόγηση μορφών πινάκων και διαμόρφωση

Ενότητα 4: Προηγμένη HBase

    Σύνθετη μοντελοποίηση σχήματος Μαζικά δεδομένα συμπίεσης Απορρόφηση Μεγάλου πίνακα / Ψηλής σύγκρισης HBase και Pig HBase και Hive HBase Performance Tuning Labs : συντονισμός HBase; πρόσβαση σε δεδομένα HBase από το Pig & Hive; Χρήση του Phoenix για μοντελοποίηση δεδομένων

Requirements

  • άνετα με τη γλώσσα προγραμματισμού Java (οι περισσότερες ασκήσεις προγραμματισμού είναι σε java)
  • άνετα σε περιβάλλον Linux (μπορείτε να πλοηγηθείτε στη γραμμή εντολών Linux, να επεξεργαστείτε αρχεία χρησιμοποιώντας vi / nano)
  • εργασιακή γνώση του Hadoop.

Εργαστηριακό περιβάλλον

Zero Install: Δεν χρειάζεται να εγκαταστήσετε λογισμικό hadoop στα μηχανήματα των μαθητών! Θα παρέχεται ένα εργασιακό cluster hadoop για τους μαθητές.

Οι μαθητές θα χρειαστούν τα ακόλουθα

  • ένας πελάτης SSH (Linux και ο Mac έχουν ήδη προγράμματα-πελάτες ssh, για το Windows Putty συνιστάται)
  • ένα πρόγραμμα περιήγησης για πρόσβαση στο σύμπλεγμα. Συνιστούμε το πρόγραμμα περιήγησης Firefox
  21 Hours
 

Number of participants


Starts

Ends


Dates are subject to availability and take place between 09:30 and 16:30.
Open Training Courses require 5+ participants.

Testimonials (3)

Related Courses

Apache Ambari: Efficiently Manage Hadoop Clusters

  21 Hours

Hadoop For Administrators

  21 Hours

Hadoop for Project Managers

  14 Hours

Samza for Stream Processing

  14 Hours

Datameer for Data Analysts

  14 Hours

Related Categories