Apache Iceberg Βασικά Κομμάτι εκπαίδευσης
Το Apache Iceberg είναι μια αναπτυξιακή πλατφόρμα open-source για τη διαχείριση μεγάλων συνόλων δεδομένων, η οποία εισάγει την αξιοπιστία και την απλότητα των πινάκων SQL στα μεγάλα δεδομένα. Σχεδιάστηκε για να λύσει τις προκλήσεις της διαχείρισης μεγάλων δεδομένων σε δάση δεδομένων, όπου συχνά απαιτείται η διαχείριση περίπλοκων σχηματισμών, μεγάλων αρχείων και διαφόρων πηγών δεδομένων.
Αυτή η εκπαιδευτική διάλεξη, με την καθοδήγηση του εκπαιδευτή (online ή onsite), απευθύνεται σε αρχαρίους εξειδικευμένους διαχειριστές δεδομένων που επιθυμούν να κατέχουν τη γνώση και τις δεξιότητες απαραίτητες για την αποδοτική χρήση του Apache Iceberg στη διαχείριση μεγάλων συνόλων δεδομένων, εξασφάλιση της ακεραιότητας των δεδομένων και βελτίωση των προϊόντων εργασίας μεταποιήσεως δεδομένων.
Στο τέλος αυτής της κατάρτισης, οι συμμετέχοντες θα είναι σε θέση να:
- Να αποκτήσουν καθολική κατανόηση της αρχιτεκτονικής, των χαρακτηριστικών και των πλεονεκτημάτων του Apache Iceberg.
- Να μάθουν για τους πίνακες, τη διαίρεση (partitioning), την εξέλιξη σχηματισμών και τις δυνατότητες "time travel".
- Να εγκαταστήσουν και να ρυθμίσουν το Apache Iceberg σε διάφορα περιβάλλοντα.
- Να δημιουργήσουν, να διαχειρίζονται και να αλλάζουν τους πίνακες Iceberg.
- Να κατανοήσουν τη διαδικασία μεταφοράς δεδομένων από άλλους πίνακες στο Iceberg.
Μορφή της Κατάρτισης
- Διαδραστική παράσταση και συζήτηση.
- Πολλά ασκήματα και πρακτικές εκπαιδεύσεις.
- Πρακτική υλοποίηση σε ζωντανό περιβάλλον εργαστηρίου.
Επιλογές Προσαρμογής Κατάρτισης
- Για να αναζητήσετε μια προσαρμοσμένη εκπαίδευση γι' αυτό το κύριο, παρακαλώ επικοινωνήστε μαζί μας για να διατυπώσουμε τη σχέση.
Εξέλιξη Κομματιού
Εισαγωγή στο Apache Iceberg
- Περίληψη του Apache Iceberg
- Σημασία και εφαρμογές στη σύγχρονη αρχιτεκτονική δεδομένων
- Κύριε χαρακτηριστικά και πλεονεκτήματα
Βασικές Έννοιες
- Σχηματισμός και αρχιτεκτονική πίνακα Iceberg
- Σύγκριση με άλλους σχηματισμούς πίνακων
- Κατανέμηση και εξέλιξη υποδομής
- Περίοδος ανάμεσα σε πρόσωστα και διαχείριση εκδοχών δεδομένων
Εγκατάσταση του Apache Iceberg
- Εγκατάσταση και ρύθμιση
- Συνδυασμός Iceberg με διάφορους μηχανισμούς επεξεργασίας δεδομένων
- Εγκατάσταση περιβάλλον Iceberg σε τοπικό υπολογιστή
Βασικές Λειτουργίες
- Δημιουργία και διαχείριση πινάκων Iceberg
- Σύνταξη σε και ανάγνωση από πίνακες Iceberg
- Βασικές CRUD λειτουργίες
Διαμετακόμιση και Συνδυασμός Δεδομένων
- Μεταφορά δεδομένων από το Hive και άλλους συστήματες στο Iceberg
- Συνδυασμός με εργαλεία BI
- Διαμετάκομιση δειγματικής πληροφορίας στο Iceberg
Βελτιστοποίηση της Απόδοσης
- Τεχνικές για την προσαρμογή της απόδοσης
- Βελτιστοποίηση ερωτήσεων και διαδοχικών σου περιγράφων ανάμεσα σε δεδομένα
- Βελτιστοποίηση της απόδοσης στο Iceberg
Περιγραφή Προχωρημένων Λειτουργιών
- Εξέλιξη κατανόμης και κρυφή κατανομή
- Εξέλιξη πίνακα και αλλαγές υποδομής
- Περίοδος ανάμεσα σε πρόσωστα και λειτουργίες ανακατάσκευης
- Εφαρμογή προχωρημένων λειτουργιών στο Iceberg
Περίληψη και επόμενα βήματα
Απαιτήσεις
- Γνωστοποίηση με επιστημονικά όπως πίνακες, σχήματα, κόμβοι και εισαγωγή δεδομένων
- Βασική γνώση SQL
Ακροατήριο
- Διαχειριστές δεδομένων
- Αρχιτέκτονες δεδομένων
- Αναλυτές δεδομένων
- Προγραμματιστές λογισμικού
Κομμάτια Εκπαίδευσης χρειάζονται 5+ συμμετέχοντες.
Apache Iceberg Βασικά Κομμάτι εκπαίδευσης - Κράτηση
Apache Iceberg Βασικά Κομμάτι εκπαίδευσης - Ζήτημα Συμβουλευτικής
Apache Iceberg Βασικά - Συμβουλευτική Αίτημα
Σχόλια (1)
Χειροποίητα άσκηση. Η τάξη θα έπρεπε να διαρκέσει 5 ημέρες, αλλά και τις 3 ημέρες βοήθησαν σημαντικά να διευκρινίσω πολλά ερωτήματα που είχα από την εργασία μου με το NiFi.
James - BHG Financial
Κομμάτι - Apache NiFi for Administrators
Μηχανική Μετάφραση
Εφεξής Μαθήματα
Σχετικά Μαθήματα
Advanced Apache Iceberg
21 ΏρεςΑυτή η καθοδηγημένη από εκπαιδευτικό, ζωντανή εκπαίδευση σε Ελλάδα (online ή on-site) απευθύνεται σε προχωρημένους διαχειριστές δεδομένων που επιθυμούν να βελτιώσουν τα ρούτινες επεξεργασίας δεδομένων, να ασφαλίσουν την ακεραιότητα των δεδομένων και να υλοποιήσουν στοχευμένες λύσεις data lakehouse που μπορούν να αντιμετωπίσουν την περιπλοκότητα σύγχρονων εφαρμογών μεγάλων δεδομένων.
Στο τέλος αυτής της εκπαίδευσης, οι συμμετέχοντες θα μπορούν να:
- Να αποκτήσουν εξαντλητική κατανόηση της αρχιτεκτονικής Iceberg, συμπεριλαμβανομένης της διαχείρισης μεταδεδομένων και της διάταξης αρχείων.
- Να ρυθμίσουν το Iceberg για βέλτιστη απόδοση σε διάφορα περιβάλλοντα και να το ενταξιορθώσουν με πολλά μηχανήματα επεξεργασίας δεδομένων.
- Να διαχειρίζονται μεγάλες κλίμακες πινάκων Iceberg, να εκτελούν περίπλοκες αλλαγές σεμασιοθεσίας και να χειριζόμαστε την εξέλιξη καταμερισμών.
- Να αποκτήσουν εξειδίκευση σε τεχνικές για τη βελτίωση της απόδοσης ερωτήσεων και την αποτελεσματικότητα σάρωσης δεδομένων για μεγάλους πίνακες.
- Να υλοποιήσουν μηχανισμούς για την ασφάλιση συνέπειας δεδομένων, να διαχειρίζονται εγγυήσεις συναλλαγών και να χειριστούν αποτυχίες σε κατανεμημένα περιβάλλοντα.
Big Data Analytics με Google Colab και Apache Spark
14 ΏρεςΑυτή η εκπαιδευτική διάλεξη σε ζωντανό μέρος (σε πρόσωπο πρόσωπου ή διαδικτύου) είναι στοχευμένη για μεσαίου επιπέδου ειδικές στατιστικά επιστήμονες και μηχανικούς που θέλουν να χρησιμοποιήσουν Google Colab και Apache Spark για την επεξεργασία και ανάλυση μεγάλων δεδομένων.
Μέχρι το τέλος αυτής της εκπαιδευτικής διαλέξεως, οι μεταφράστες θα μπορούν να:
- Εγκαταστήσουν περιβάλλον μεγάλων δεδομένων χρησιμοποιώντας Google Colab και Spark.
- Επεξεργαστούν και αναλύσουν μεγάλα σημεία δεδομένων εξικανώς με το Apache Spark.
- Δημιουργήστε προβολές για μεγάλα σημεία δεδομένων σε ενόπλη υπεύθυνη ομάδα.
- Συνδυάστε Apache Spark με αστικά εργαλεία.
Μεγάλα Δεδομένα Επιχειρησιακή Νοηματική για Κυβερνητικές Αρχές
35 ΏρεςΟι πρόοδοι στις τεχνολογίες και η αύξηση του όγκου των πληροφοριών επηρεάζουν τον τρόπο λειτουργίας πολλών βιομηχανιών, συμπεριλαμβανομένων και των κυβερνήσεων. Τα ρυθμίσεις που δημιουργούν και αποθηκεύουν δεδομένα στον κυβερνητικό τομέα επιταχύνονται λόγω της γρήγορης ανάπτυξης των κινητών συσκευών και εφαρμογών, ορατών φθεντέρων και συσκευών, λύσεων πάνω στο ραντεβού, και πορταλ που απευθύνονται στους πολίτες. Καθώς τα διψηφιακά δεδομένα εξελίσσονται και γίνονται πιο περίπλοκα, η διαχείριση, επεξεργασία, αποθήκευση, ασφάλεια και χειρισμός των πληροφοριών γίνονται πιο περίπλοκοι. Νέα εργαλεία απόκτησης, αναζήτησης, ανάκαλυψης και ανάλυσης βοηθούν τις οργανώσεις να περιλαμβάνουν ειδήσεις από τα μη δομημένα τους δεδομένα. Η κυβερνητική αγορά βρίσκεται σε ένα σημείο κλίμακας, υποσχόμενη ότι τα πληροφορίες είναι μια στρατηγική περιουσία, και η κυβέρνηση πρέπει να προστατεύει, να χρησιμοποιεί και να αναλύει τόσο δομημένα όσο και μη δομημένα πληροφορίες για να εξυπηρετήσει καλύτερα και να συμβάλει στην εκπλήρωση των αποστολών. Καθώς οι κυβερνητικοί ηγέτες προσπαθούν να εξελίξουν δεδομένα-οδηγούς οργανισμούς για την επιτυχή ανάπτυξη των αποστολών, θέτουν τη βάση για τη συσχέτιση των εξαρτήσεων μεταξύ γεγονότων, ανθρώπων, διαδικασιών και πληροφοριών.
Υψηλή αξίας λύσεις στην κυβέρνηση θα δημιουργηθούν μέσω της ενοποίησης των πιο διακυβευμένων τεχνολογιών:
- Κινητά συσκευές και εφαρμογές
- Υπηρεσίες ραντεβού
- Τεχνολογίες και δικτύα επιχειρηματικής κοινωνικότητας
- Μεγάλα Δεδομένα και ανάλυση
Τα Μεγάλα Δεδομένα είναι μια από τις εξυπηρετητικές λύσεις που επιτρέπουν στην κυβέρνηση να λαμβάνει καλύτερες αποφάσεις μέσω της πρακτικής εφαρμογής σχεδίων που αποκαλύπτονται από την ανάλυση μεγάλων όγκων δεδομένων - συνδεδεμένων και άσχετων, δομημένων και μη δομημένων.
Η επίτευξη αυτών των στόχων περνά από την απλή συσσωρευτικότητα μεγάλων όγκων δεδομένων. "Η κατανόηση αυτών των μεγάλων πληθών Μεγάλων Δεдομένων χρειάζεται κοπελάδικα εργαλεία και τεχνολογίες που μπορούν να αναλύσουν και να εξαγάγουν χρήσιμη γνώση από διάφορες ροές πληροφορίων", έγραψαν ο Tom Kalil και η Fen Zhao του Γραφείου Επιστήμης και Τεχνολογίας του Λευκού Οίκου σε μια ανάρτηση στο OSTP Blog.
Ο Λευκός Οίκος πήρε ένα βήμα για να βοηθήσει τους υπηρετηρίους να βρούν αυτές τις τεχνολογίες όταν ίδρυσε το Εθνικό Πρόγραμμα Έρευνας και Ανάπτυξης για τα Μεγάλα Δεδομένα το 2012. Το πρόγραμμα περιλήφθηκε μαζί με περισσότερα από 200 εκατομμύρια δολάρια για να χρησιμοποιήσει την έκρηξη των Μεγάλων Δεδομένων και τα εργαλεία που χρειάζονται για να τα αναλύσουν.
Τα προβλήματα που προκαλούν τα Μεγάλα Δεδομένα είναι σχεδόν όσο δυναμικά όσο αποτελεσματική είναι η υπόσχεσή τους. Η αποθήκευση δεδομένων με αποδοτικό τρόπο είναι ένα από αυτά τα προβλήματα. Όπως πάντα, οι προϋπολογισμοί είναι στενούς, οπότε οι υπηρεσίες πρέπει να μειώσουν την τιμή αποθήκευσης ανά megabyte και να διατηρήσουν τα δεδομένα εύκολα προσβάσιμα ώστε οι χρήστες να μπορούν να τα λάβουν όταν τα θέλουν και ως είναι. Η αντιγραφή τεράστιων ποσοτήτων δεδομένων μεγαλώνει την πρόκληση.
Η αποτελεσματική ανάλυση δεδομένων είναι κι άλλο ένα σημαντικό πρόβλημα. Πολλές υπηρεσίες χρησιμοποιούν εμπορικά εργαλεία που τους επιτρέπουν να αναζητούν σε βουνά δεδομένων, με αποδοχή των τάσεων που μπορούν να τους βοηθήσουν να λειτουργούν πιο αποδοτικά. (Μια πρόσφατη έρευνα του MeriTalk δείχνει ότι οι εκτελεστικοί διαχειριστές IT των κυβερνήσεων πιστεύουν ότι τα Μεγάλα Δεδομένα μπορούν να βοηθήσουν τις εξυπηρετητικές υπηρεσίες να εξοικονομήσουν πάνω από 500 δισεκατομμύρια δολάρια, και ταυτόχρονα να εκπληρώσουν τους στόχους τους.).
Εργαλεία ανάλυσης δεδομένων που χτίζονται ειδικά επιτρέπουν σε υπηρεσίες να κατανοήσουν τα δεδομένα τους. Για παράδειγμα, οι ομάδες ερευνητών του Εθνικού Εργαστηρίου Oak Ridge υπό την ομάδα Computational Data Analytics Group έχουν διαθέσει το σύστημα ανάλυσης δεδομένων Piranha σε άλλες υπηρεσίες. Το σύστημα έχει βοηθήσει τους ερευνητές γιατρικής να βρούν ένα σύνδεσμο που μπορεί να αλάρησει τους ιατρούς για διαφανίσεις αορτής πριν συμβεί. Χρησιμοποιείται επίσης και για πιο καθηκόδουλες δραστηριότητες, όπως την ανάζητηση βιβλίων για να συνδέσει προσωπικό με διευθυντές μίσθωσης.
Hadoop για διαχειριστές
21 ΏρεςApache Hadoop είναι το πιο δημοφιλές πλαίσιο για επεξεργασία Big Data σε κλάστερ από server. Σε αυτή την διάρκεια 3 (επιλεγμένως 4) μέρες, οι εκδοτικοί θα μάθουν για τους επιχειρηματικούς πλεονεκτήματα και τις περιπτώσεις χρήσης Hadoop και του οικοσυστήματός του, πώς να επιχειρήσουν τη διάθεση κλάστερ και την ανάπτυξη, πώς να εγκαταστήσουν, διατηρήσουν, έχουν στο ρίχτωμα, διορθώσουν και τελειώσουν Hadoop. Θα πρακτικάρουν μεγάλη φόρτωση δεδομένων σε κλάστερ, θα γίνουν ευφυή με διάφορες διανομές Hadoop, και θα πρακτικάρουν την εγκατάσταση και τη διαχείριση εργαλείων του οικοσυστήματος Hadoop. Η διάθεση λήγει με συζήτηση για τον έλεγχο ασφαλείας κλάστερ με Kerberos.
"Τα υλικά ήταν πολύ επιτυχημένα διατυπωμένα και εξαναγκάστηκαν. Το Lab ήταν πολύ χρήσιμο και καλά συνταγμένο"— Andrew Nguyen, Principal Integration DW Engineer, Microsoft Online Advertising
Ακροατής
Hadoop διαχειριστές
Σχεδιασμός
Ομιλίες και προκειμένα υποψήφια αυξητικά, περίπου 60% ομιλίες, 40% εργαστηριακό.
Αποδόσεις Διαχειριστών Apache NiFi
21 ΏρεςO Apache NiFi είναι ένα open-source πλατφόρμα ροής δεδομένων και επεξεργασίας γεγονότων. Ειδυλλιώνει την αυτόματη, πραγματικής χρονικής διάστασης μεταφορά, μετασχηματισμό και ενδιάμεση μέση επεξεργασία δεδομένων μεταξύ ένων διαφορετικών συστημάτων, με χρήση πλατφόρμας με γραφικό περιβάλλον και λεπτομερή ελέγχου.
Αυτή η διδασκαλία υπό την οδηγία του εκπαιδευτικού (χώρος και απομακρυσμένα) απευθύνεται σε διοικητές και μηχανικούς μεδίου επιπέδου, οι οποίοι επιθυμούν να εφαρμόσουν, να διαχειριστούν, να ασφαλίσουν και να βελτιστοποιήσουν ροές δεδομένων NiFi σε παραγωγικά περιβάλλοντα.
Στο τέλος αυτής της εκπαίδευσης, οι συμμετέχοντες θα είναι σε θέση να:
- Εγκαταστήσουν, να ρυθμίσουν και να διατηρήσουν συστήματα συστήματος Apache NiFi.
- Σχεδιάσουν και να διαχειρίζονται ροές δεδομένων από διάφορες πηγές και θερμοκρασίες.
- Εφαρμόσουν λογική αυτοματοποίησης, διαδρομής και μετασχηματισμού ροής.
- Βελτιστοποιήσουν την απόδοση, να παρακολουθήσουν τις λειτουργίες και να εξασφαλίσουν χαλάρωση προβλημάτων.
Μορφή του Μαθήματος
- Αλληλεπιδραστική παράσταση με συζήτηση αρχιτεκτονικής πραγματικού κόσμου.
- Εργασίες χειρονομήτρου: κατασκευή, εφαρμογή και διαχείριση ροών.
- Ασκήσεις με σενάρια σε ζωντανό περιβάλλον εργαστηρίου.
Επιλογές Προσαρμογής Μαθήματος
- Για να κάνετε αίτηση για προσαρμοσμένη εκπαίδευση για αυτό το μάθημα, παρακαλούμε επικοινωνήστε μαζί μας για να οργανώσετε.
Apache NiFi για Εξελίσσονται
7 ΏρεςΣε αυτή τη ζωντανή εκπαίδευση στο Ελλάδα, καθοδηγούμενη από εκπαιδευτές, οι συμμετέχοντες θα μάθουν τις βασικές αρχές του προγραμματισμού που βασίζεται στη ροή καθώς αναπτύσσουν έναν αριθμό από επεκτάσεις επίδειξης, στοιχεία και επεξεργαστές χρησιμοποιώντας το Apache NiFi.
Με το τέλος αυτής της εκπαίδευσης, οι συμμετέχοντες θα είναι σε θέση:
- Κατανοήστε την αρχιτεκτονική του NiFi και τις έννοιες ροής δεδομένων.
- Αναπτύξτε επεκτάσεις χρησιμοποιώντας NiFi και API τρίτων.
- Προσαρμοσμένα αναπτύσσουν τον δικό τους επεξεργαστή Apache Nifi.
- Απορροφήστε και επεξεργαστείτε δεδομένα σε πραγματικό χρόνο από διαφορετικές και ασυνήθιστες μορφές αρχείων και πηγές δεδομένων.
PySpark και Μηχανική Μάθησης
21 ΏρεςΗ παρούσα εκπαίδευση παρέχει μια πρακτική εισαγωγή στην κατασκευή επεκτάσιμων ροών εργασίας επεξεργασίας δεδομένων και Μηχανικής Μάθησης με τη χρήση του PySpark. Οι συμμετέχοντες μαθαίνουν πώς λειτουργεί το Apache Spark εντός των σύγχρονων οικοσυστημάτων Big Data και πώς να επεξεργάζονται αποτελεσματικά μεγάλα σύνολα δεδομένων, αξιοποιώντας τις αρχές της κατανεμημένης επεξεργασίας.
Βασικά Στοιχεία του Apache Spark
21 ΏρεςΑυτή η οδηγία υπό διδασκαλία (online ή on-site) απευθύνεται σε μηχανικούς που επιθυμούν να εγκαταστήσουν και να διαχειριστούν το σύστημα Apache Spark για την επεξεργασία πολύ μεγάλων ποσοτήτων δεδομένων.
Στο τέλος αυτής της κατάρτισης, οι συμμετέχοντες θα είναι σε θέση:
- Εγκαταστάσει και διαμόρφωση του Apache Spark.
- Γρήγορη επεξεργασία και ανάλυση πολύ μεγάλων συνόλων δεδομένων.
- Κατανόηση της διαφοράς μεταξύ του Apache Spark και του Hadoop MapReduce, καθώς και πότε να χρησιμοποιήσουν αυτό ή εκείνο.
- Ενσωμάτωση του Apache Spark με άλλες εργαλεία μηχανικής μάθησης.
Διαχείριση του Apache Spark
35 ΏρεςΑυτή η ζωντανή εκπαίδευση υπό την καθοδήγηση εκπαιδευτών στο Ελλάδα (διαδικτυακό ή επιτόπου) απευθύνεται σε αρχάριους έως μεσαίου επιπέδου διαχειριστές συστημάτων που επιθυμούν να αναπτύξουν, να διατηρήσουν και να βελτιστοποιήσουν συμπλέγματα Spark.
Με το τέλος αυτής της εκπαίδευσης, οι συμμετέχοντες θα είναι σε θέση:
- Εγκαταστήστε και διαμορφώστε το Apache Spark σε διάφορα περιβάλλοντα.
- Διαχειριστείτε τους πόρους συμπλέγματος και παρακολουθήστε τις εφαρμογές Spark.
- Βελτιστοποιήστε την απόδοση των συμπλεγμάτων Spark.
- Εφαρμόστε μέτρα ασφαλείας και εξασφαλίστε υψηλή διαθεσιμότητα.
- Εντοπισμός σφαλμάτων και αντιμετώπιση κοινών προβλημάτων Spark.
Apache Spark στον Πυρήνα της Ασπίδας
21 ΏρεςΗ καμπύλη μάθηση του Apache Spark αρχικά είναι ξεκούραση, χρειάζεται πολλή προσπάθεια για να πάρει κανείς το πρώτο αποδότημα. Αυτό το μάθημα στοχεύει να διέλθει τον πρώτο δύσκολο τομέα. Μετά από τη συμμετοχή σε αυτό το μάθημα, οι συμμετέχοντες θα καταλάβουν τις βασικές εννοιές του Apache Spark, θα διακρίνουν με ακρίβεια το RDD από το DataFrame, θα μάθουν τη Python και Scala API, θα καταλάβουν εκτελεστές και εργασίες, κ.α. Επιπλέον, ακολουθώντας τις καλύτερες πρακτικές, αυτό το μάθημα εστιάζει ιδιαίτερα στην υπολογιστική στην Σύνθεση, Databricks και AWS. Οι φοιτητές θα καταλάβουν επίσης τις διαφορές μεταξύ AWS EMR και AWS Glue, μία από τις πιο πρόσφατες υπηρεσίες Spark του AWS.
ΔΙΕΥΘΥΝΤΗΣ:
Data Engineer, DevOps, Data Scientist
Python και Spark για Μεγάλα Δεδομένα (PySpark)
21 ΏρεςΣε αυτήν τη ζωντανή εκπαίδευση στο Ελλάδα, καθοδηγούμενη από εκπαιδευτές, οι συμμετέχοντες θα μάθουν πώς να χρησιμοποιούν το Python και το Spark μαζί για να αναλύουν μεγάλα δεδομένα καθώς εργάζονται σε πρακτικές ασκήσεις.
Με το τέλος αυτής της εκπαίδευσης, οι συμμετέχοντες θα είναι σε θέση:
- Μάθετε πώς να χρησιμοποιείτε το Spark με το Python για την ανάλυση του Big Data.
- Εργαστείτε σε ασκήσεις που μιμούνται πραγματικές περιπτώσεις.
- Χρησιμοποιήστε διαφορετικά εργαλεία και τεχνικές για την ανάλυση μεγάλων δεδομένων χρησιμοποιώντας το PySpark.
Python, Spark και Hadoop για Μεγάλα Δεδομένα
21 ΏρεςΑυτή η ζωντανή εκπαίδευση υπό την καθοδήγηση εκπαιδευτών στο Ελλάδα (διαδικτυακό ή επιτόπου) απευθύνεται σε προγραμματιστές που επιθυμούν να χρησιμοποιήσουν και να ενσωματώσουν το Spark, Hadoop και Python για να επεξεργαστούν, να αναλύσουν και να μετασχηματίσουν μεγάλα και πολύπλοκα σύνολα δεδομένων.
Με το τέλος αυτής της εκπαίδευσης, οι συμμετέχοντες θα είναι σε θέση:
- Ρυθμίστε το απαραίτητο περιβάλλον για να ξεκινήσετε την επεξεργασία μεγάλων δεδομένων με το Spark, Hadoop και Python.
- Κατανοήστε τα χαρακτηριστικά, τα βασικά στοιχεία και την αρχιτεκτονική του Spark και Hadoop.
- Μάθετε πώς να ενσωματώνετε το Spark, Hadoop και Python για επεξεργασία μεγάλων δεδομένων.
- Εξερευνήστε τα εργαλεία στο οικοσύστημα Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka και Flume).
- Δημιουργήστε συνεργατικά συστήματα προτάσεων φιλτραρίσματος παρόμοια με το Netflix, το YouTube, το Amazon, το Spotify και το Google.
- Χρησιμοποιήστε το Apache Mahout για να κλιμακώσετε τους αλγόριθμους μηχανικής μάθησης.
Apache Spark SQL
7 ΏρεςO Spark SQL είναι ένας μόδουλος του Apache Spark για να εργάζεται με δομημένα και ανεξάρτητα σε δομή δεδομένα. Ο Spark SQL παρέχει πληροφορίες για τη δομή των δεδομένων καθώς και την εκτέλεση των υπολογισμών. Αυτές οι πληροφορίες μπορούν να χρησιμοποιηθούν για να διεξαχθούν βελτιώσεις. Δύο συνηθισμένες χρήσεις του Spark SQL είναι:
- η εκτέλεση SQL ερωτήσεων.
- η ανάγνωση δεδομένων από υπάρχουσες εγκαταστάσεις Hive.
Σε αυτή την καθοδηγούμενη από καθηγητή, ζωντανή εκπαίδευση (χώρου υποδοχής ή από αποστάση), οι συμμετέχοντες θα μάθουν πώς να αναλύουν διάφορους τύπους συνόλων δεδομένων χρησιμοποιώντας Spark SQL.
Στο τέλος αυτής της εκπαίδευσης, οι συμμετέχοντες θα μπορούν:
- Να εγκαθιστούν και να ρυθμίζουν το Spark SQL.
- Να διεξάγουν ανάλυση δεδομένων με το Spark SQL.
- Να ερωτήσουν σύνολα δεδομένων σε διάφορα μορφώματα.
- Να οπτικοποιούν δεδομένα και αποτελέσματα ερωτήσεων.
Μορφή του Μαθήματος
- Διαδραστικός διάλεξη και συζήτηση.
- Πολλά ασκήματα και πράξη.
- Χειρονομία εφαρμογής σε ζωντανό lab-περιβάλλον.
Ευκαιρίες Προσαρμογής του Μαθήματος
- Για να ζητήσετε μια προσαρμογμένη εκπαίδευση για αυτό το μάθημα, παρακαλώ επικοινωνήστε μαζί μας για να κάνετε οργάνωση.
Stratio: Ροκέτ και Δυναμικά Μόδουλα με PySpark
14 ΏρεςStratio είναι μια πλατφόρμα αξιοθέτησης δεδομένων που ενσωματώνει τα big data, την AI και την governance σε μία έντελη λύση. Οι modula Rocket και Intelligence επιτρέπουν γρήγορη αναζήτηση, μετάφραση δεδομένων και προβληματική ανάλυση σε εντελειώδη περιβάλλοντα.
Αυτό το δίδασκτρο με οργανωμένη καθοδήγηση (πολύχρωμος ή live) στόχο ενισχύει τους μεσαίου επιπέδου δεδομένων επαγγελματίες που επιθυμούν να χρησιμοποιήσουν τα modula Rocket και Intelligence στο Stratio αποτελεσματικά με PySpark, εστίαζόντας σε περιβάλλοντα διαδηλώσεων, χρήστες-ορισμένες λειτουργίες και προβληματικά δεδομένα.
Στο τέλος αυτής της εκπαίδευσης, οι συμμετέχοντες θα μπορούν να:
- Να περιφέρονται και να εργάζονται στην Stratio platform χρησιμοποιώντας τους modula Rocket και Intelligence.
- Να εφαρμόζουν PySpark σε περιβάλλοντα δεδομένων ingestion, transformation, και analysis.
- Να χρησιμοποιούν loops και συνθηκική λογική για τον έλεγχο δεδομένων workflows και feature engineering tasks.
- Να δημιουργούν και να διαχειρίζονται χρήστες-ορισμένες λειτουργίες (UDFs) για μεταχειριστό data operations στο PySpark.
Μορφή της Εκπαίδευσης
- Διεξοδική εισαγωγή και συζήτηση.
- Πολλά ασκήσεις και πρακτική.
- Αλληλεπίδραση σε μια live-lab περιβάλλον.
Επιλογές Διεξαγωγής Προσαρμοστικών
- Για να αιτηθεί μια προσαρμοσμένη εκπαίδευση για αυτό το δίδασκο, παρακαλώ συνεχίζετε μας.