Εξέλιξη Κομματιού
Τμήμα 1: Εισαγωγή στο Hadoop
- Ιστορία, εννοιές του Hadoop
- Οικοσύστημα
- Κατανομές
- Επίπεδη αρχιτεκτονική
- Μυθολογίες Hadoop
- Προκλήσεις Hadoop
- Υπολογιστικό / λογισμικό
- Εργαστήριο : πρώτη γνωριμία με το Hadoop
Τμήμα 2: HDFS
- Σχέδιο και αρχιτεκτονική
- Εννοιές (οριζόντια διαστολή, αποδοχή, τοπικότητα δεδομένων, ευαισθησία ρακί)
- Δαίμονες : Namenode, Secondary namenode, Data node
- Επικοινωνίες / κόκκινες καρδιές (heart-beats)
- Ακεραιότητα δεδομένων
- Μονοπάτι ανάγνωση / γραφή
- Η υψηλή διαθεσιμότητα (High Availability) του Namenode, Συνομοσπονδία (Federation)
- Εργαστήρια : αλληλεπίδραση με HDFS
Τμήμα 3: MapReduce
- Εννοιές και αρχιτεκτονική
- Δαίμονες (MRV1) : jobtracker / tasktracker
- Φάσεις : driver, mapper, shuffle/sort, reducer
- MapReduce Έκδοση 1 και Έκδοση 2 (YARN)
- Εσωτερικές λεπτομέρειες του MapReduce
- Εισαγωγή στο πρόγραμμα Java MapReduce
- Εργαστήρια : εκτέλεση δείγματος προγράμματος MapReduce
Τμήμα 4: Pig
- Pig vs Java MapReduce
- Ροή εργασίας του Pig
- Γλώσσα προγραμματισμού Pig Latin
- ETL με Pig
- Μετασχηματισμοί & Συνδέσεις (Joins)
- Ελαφρύσματα χρήστη (User Defined Functions - UDF)
- Εργαστήρια : γράφοντας σενάρια Pig για την ανάλυση δεδομένων
Τμήμα 5: Hive
- Αρχιτεκτονική και σχεδιασμός
- Τύποι δεδομένων
- Υποστήριξη SQL στο Hive
- Δημιουργία και ερώτηση πινάκων Hive
- Καταμερισμοί (partitions)
- Συνδέσεις (joins)
- Επεξεργασία κειμένου
- Εργαστήρια : διάφορα εργαστήρια για την επεξεργασία δεδομένων με Hive
Τμήμα 6: HBase
- Εννοιές και αρχιτεκτονική
- HBase vs RDBMS vs Cassandra
- HBase Java API
- Χρονολογικά δεδομένα στο HBase
- Σχεδιασμός πρότυπου (schema)
- Εργαστήρια : αλληλεπίδραση με το HBase χρησιμοποιώντας shell; προγραμματισμός στο Java API του HBase; Άσκηση σχεδιασμού πρότυπου (schema)
Απαιτήσεις
- να είναι εξοικειωμένος με τη γλώσσα προγραμματισμού Java (τα περισσότερα ασκήματα προγραμματισμού είναι σε Java)
- να είναι εξοικειωμένος με το περιβάλλον Linux (να μπορεί να διαβιβάζεται στη γραμμή εντολών του Linux, να επεξεργάζεται αρχεία χρησιμοποιώντας vi ή nano)
Περιβάλλον Εργαστήριου
Μην διαθέτετε τίποτα : Δεν υπάρχει ανάγκη να εγκαινιάζετε λογισμικό Hadoop στους υπολογιστές των μαθητών! Ένα διαδραστικό cluster Hadoop θα παρέχεται για τους μαθητές.
Οι μαθητές θα χρειάζονται τα εξής
- ένα SSH client (Linux και Mac έχουν ήδη ssh clients, για Windows προτείνεται το Putty)
- ένα πρόγραμμα περιήγησης για να έχουν πρόσβαση στο cluster, συνιστάται το Firefox
Σχόλια (5)
Τα ζωντανά παραδείγματα
Ahmet Bolat - Accenture Industrial SS
Κομμάτι - Python, Spark, and Hadoop for Big Data
Μηχανική Μετάφραση
Κατά τη διάρκεια των ασκήσεων, ο James μου εξήγησε σε λεπτομέρεια κάθε βήμα που μου προκαλούσε δυσκολίες. Ήθελα να γνωρίζω όλα από την αρχή στο NIFI. Εξήγησε μου το πραγματικό στόχο του NIFI, ακόμη και βασικά θέματα όπως το open source. Καλύψε εντελώς κάθε concept του Nifi, αρχίζοντας από επίπεδο ξεκαθάρισης μέχρι επίπεδο προγραμματιστή.
Firdous Hashim Ali - MOD A BLOCK
Κομμάτι - Apache NiFi for Administrators
Μηχανική Μετάφραση
Ωτι το είχα από την αρχή.
Peter Scales - CACI Ltd
Κομμάτι - Apache NiFi for Developers
Μηχανική Μετάφραση
πρακτικά πράγματα να γίνουν, επίσης η θεωρία υπηρέτηθη καλά από τον Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Κομμάτι - Hadoop Administration on MapR
Μηχανική Μετάφραση
Η VM που μου αρέσει πολύ Ο Δάσκαλος ήταν πολύ γνωστός σχετικά με το θέμα, όπως και για άλλα θέματα, ήταν πολύ φίλιος και ευγενικός Μου αρέσει το εδάφος στο Δουβάι.
Safar Alqahtani - Elm Information Security
Κομμάτι - Big Data Analytics in Health
Μηχανική Μετάφραση