Programming με Big Data στο R Κομμάτι εκπαίδευσης
Το Big Data είναι ένα όρος που αναφέρεται σε λύσεις που προορίζονται για την αποθήκευση και επεξεργασία μεγάλων συνόλων δεδομένων. Αναπτύχθηκαν αρχικά από τη Google, αυτές οι λύσεις Big Data εξελίχθηκαν και έφεραν σε εμφάνιση άλλα παρόμοια έγχειρήματα, από τα οποία πολλά είναι διαθέσιμα ως open-source. Το R είναι μια δημοφιλής γλώσσα προγραμματισμού στη βιομηχανία των χρηματοπιστωτικών υπηρεσιών.
Εξέλιξη Κομματιού
Εισαγωγή στην Προγραμματισμό Μεγάλων Δεδομένων με R (bpdR)
- Ρύθμιση του περιβάλλοντός σας για τη χρήση bpdR
- Περιοχή και εργαλεία διαθέσιμα στο bpdR
- Εφαρμογές που χρησιμοποιούνται συχνά με Μεγάλα Δεδομένα και bpdR
Διεπαφή Παράδοσης Μηνυμάτων (MPI)
- Χρήση pbdR MPI 5
- Παράλληλη επεξεργασία
- Επικοινωνία πόντου-με-πόντο (point-to-point)
- Αποστολή Πινάκων
- Προσθήκη Πινάκων
- Συλλεκτική επικοινωνία
- Προσθήκη Πινάκων με Reduce
- Spread / Gather (Διάχυση/Συστολή)
- Άλλες επικοινωνίες MPI
Κατανεμημένοι Πίνακες
- Δημιουργία κατανεμημένου διαγώνιου πίνακα
- SVD ενός κατανεμημένου πίνακα
- Δημιουργία κατανεμημένου πίνακα σε παράλληλο τρόπο
Εφαρμογές Στατιστικής
- Μέθοδος Μοντε Κάρλω για την ολοκλήρωση
- Διάβασμα συνόλων δεδομένων
- Διάβασμα σε όλους τους διεργασίες
- Αποστολή από μία διεργασία
- Διάβασμα κατανεμημένων δεδομένων
- Κατανεμημένη παλινδρόμηση
- Κατανεμημένη βοηθούπειρος (Bootstrap)
Κομμάτια Εκπαίδευσης χρειάζονται 5+ συμμετέχοντες.
Programming με Big Data στο R Κομμάτι εκπαίδευσης - Κράτηση
Programming με Big Data στο R Κομμάτι εκπαίδευσης - Ζήτημα Συμβουλευτικής
Programming με Big Data στο R - Συμβουλευτική Αίτημα
Σχόλια (2)
The subject matter and the pace were perfect.
Tim - Ottawa Research and Development Center, Science Technology Branch, Agriculture and Agri-Food Canada
Κομμάτι - Programming with Big Data in R
Μηχανική Μετάφραση
Michael the trainer is very knowledgeable and skillful about the subject of Big Data and R. He is very flexible and quickly customize the training meeting clients' need. He is also very capable to solve technical and subject matter problems on the go. Fantastic and professional training!.
Xiaoyuan Geng - Ottawa Research and Development Center, Science Technology Branch, Agriculture and Agri-Food Canada
Κομμάτι - Programming with Big Data in R
Μηχανική Μετάφραση
Εφεξής Μαθήματα
Σχετικά Μαθήματα
Εκπαίδευση διαχειριστών για Apache Hadoop
35 ΏρεςΠληθυσμός:
Το μάθημα προορίζεται για ειδικές του IT που αναζητούν λύση για τη αποθήκευση και επεξεργασία μεγάλων σημείων δεδομένων σε περιβάλλον διανεμημένου συστήματος
Goal:
Καθολική γνώση στην διαχείριση κλάστερ Hadoop.
Ανάλυση Μεγάλων Δεδομένων στην Υγεία
21 ΏρεςΗ ανάλυση μεγάλων δεδομένων επικεντρώνεται στην εξέταση μεγάλων ποσοτήτων διάφορων συνόλων δεδομένων, προκειμένου να αποκαλύψει σχέσεις, κρυφέ μοτίβα και άλλες χρήσιμες επιστημονικές γνώσεις.
Η βιομηχανία της υγείας διαθέτει τεράστιες ποσότητες περίπλοκων, έτερων μεδικών και κλινικών δεδομένων. Η εφαρμογή τεχνικών ανάλυσης μεγάλων δεδομένων στα δεδομένα υγείας παρουσιάζει τεράστιο δυναμικό για την απόκτηση επιστημονικών γνώσεων που θα βελτιώσουν την παροχή υγειονομικής φροντίδας. Ωστόσο, η μεγάλη κλίμακα αυτών των συνόλων δεδομένων παρουσιάζει μεγάλες προκλήσεις στην ανάλυση και τις πρακτικές εφαρμογές σε κλινικό περιβάλλον.
Σε αυτή τη διδασκαλία υπό την καθοδήγηση εκπαιδευτικών (από Αποστάσης), οι συμμετέχοντες θα μάθουν πώς να πραγματοποιούν ανάλυση μεγάλων δεδομένων στην υγεία, καθώς προχωρούν σε μια σειρά εξασκήσεων ζωντανής εργαστηριακής.
Στο τέλος αυτής της διδασκαλίας, οι συμμετέχοντες θα είναι σε θέση να:
- Εγκαταστήσουν και ρυθμίσουν εργαλεία ανάλυσης μεγάλων δεδομένων, όπως το Hadoop MapReduce και το Spark
- Να κατανοήσουν τις προσδιοριστικές χαρακτηριστικές των μεδικών δεδομένων
- Να εφαρμόσουν τεχνικές μεγάλων δεδομένων για να αντιμετωπίζουν τα μεδικά δεδομένα
- Να μελετήσουν συστήματα και αλγόριθμους μεγάλων δεδομένων στο πλαίσιο των εφαρμογών υγείας
Ακροατήριο
- Προγραμματιστές
- Επιστήμονες Δεδομένων
Μορφή του Κούρσου
- Μέρος διάλεξη, μέρος συζήτηση, ασκήσεις και πολλή πρακτική εφαρμογή.
Σημείωση
- Για να ζητήσετε μια προσαρμοσμένη εκπαίδευση γι' αυτό το μάθημα, παρακαλώ επικοινωνήστε μαζί μας για να διατυπώσετε τη ζήτησή σας.
Hadoop για διαχειριστές
21 ΏρεςApache Hadoop είναι το πιο δημοφιλές πλαίσιο για επεξεργασία Big Data σε κλάστερ από server. Σε αυτή την διάρκεια 3 (επιλεγμένως 4) μέρες, οι εκδοτικοί θα μάθουν για τους επιχειρηματικούς πλεονεκτήματα και τις περιπτώσεις χρήσης Hadoop και του οικοσυστήματός του, πώς να επιχειρήσουν τη διάθεση κλάστερ και την ανάπτυξη, πώς να εγκαταστήσουν, διατηρήσουν, έχουν στο ρίχτωμα, διορθώσουν και τελειώσουν Hadoop. Θα πρακτικάρουν μεγάλη φόρτωση δεδομένων σε κλάστερ, θα γίνουν ευφυή με διάφορες διανομές Hadoop, και θα πρακτικάρουν την εγκατάσταση και τη διαχείριση εργαλείων του οικοσυστήματος Hadoop. Η διάθεση λήγει με συζήτηση για τον έλεγχο ασφαλείας κλάστερ με Kerberos.
"Τα υλικά ήταν πολύ επιτυχημένα διατυπωμένα και εξαναγκάστηκαν. Το Lab ήταν πολύ χρήσιμο και καλά συνταγμένο"— Andrew Nguyen, Principal Integration DW Engineer, Microsoft Online Advertising
Ακροατής
Hadoop διαχειριστές
Σχεδιασμός
Ομιλίες και προκειμένα υποψήφια αυξητικά, περίπου 60% ομιλίες, 40% εργαστηριακό.
Hadoop για Προγραμματιστές (4 ημέρες)
28 ΏρεςΤο Apache Hadoop είναι το πιό δημοφιλές πλαίσιο για την επεξεργασία μεγάλων όγκων δεδομένων (Big Data) σε ομάδες διακομιστών. Αυτό το μάθημα θα εισάγει τους προγραμματιστές σε διάφορες συστατικές (HDFS, MapReduce, Pig, Hive και HBase) της οικογένειας εφαρμογών Hadoop.
Advanced Hadoop for Developers
21 ΏρεςΤο Apache Hadoop είναι ένα από τα πιο δημοφιλή πλαίσια για την επεξεργασία μεγάλων ποσοτήτων δεδομένων σε κλυστές διακομιστών. Αυτό το μάθημα εισάγει τη διαχείριση δεδομένων στο HDFS, το προηγμένο Pig και Hive, καθώς και το HBase. Αυτές οι προηγμένες τεχνικές προγραμματισμού θα είναι ωφέλιμες για εμπειρογνώμονες προγραμματιστές Hadoop.
Δημοσίων: προγραμματιστές
Διάρκεια: τρεις ημέρες
Μορφή: διδασκαλίες (50%) και πρακτικά εργαστήρια (50%).
Διαχείριση Hadoop στο MapR
28 ΏρεςΔημόσια:
Αυτή η επιμέθειξη σχεδιάστηκε για να απλοποιήσει την τεχνολογία big data/hadoop και να δείξει ότι δεν είναι δύσκολο να την κατανοήσεις.
Hadoop και Spark για Διαχετικούς
35 ΏρεςΑυτή η εκπαιδευτική κατεύθυνση, που διεξάγεται από εκπαιδευτικό (σε διαδίκτυο ή εντός του χώρου), απευθύνεται σε διαχετικούς που θέλουν να μάθουν πώς να ρυθμίσουν, να εγκαταστήσουν και να διαχειριστούν συνόλων Hadoop στην οργάνωσή τους.
Είναι προφανές ότι, μέχρι το τέλος αυτής της εκπαίδευσης, οι συμμετέχοντες θα έχουν τη δυνατότητα να:
- Εγκαθιστήσουν και να ρυθμίσουν το Apache Hadoop.
- Να καταλάβουν τα τέσσερα βασικά συστατικά στην οικογένεια Hadoop: HDFS, MapReduce, YARN, και Hadoop Common.
- Να χρησιμοποιήσουν το Hadoop Distributed File System (HDFS) για να εκτελέσουν σχόλια που μπορούν να ανέρχονται έως εκατό ή χιλίαδες κόμβους.
- Να ρυθμίσουν το HDFS ως μηχανή αποθήκευσης για εγκατεστημένες εφαρμογές Spark.
- Να ρυθμίσουν το Spark για να πρόσπεσε σε εναλλακτικά κράτη αποθήκευσης, όπως η Amazon S3 και τα συστήματα βάση δεδομένων NoSQL (Redis, Elasticsearch, Couchbase, Aerospike, κλπ.).
- Να εκτελέσουν διαχειριστικές πράξεις όπως η κατοχή, διαχείριση, παρακολούθηση και ασφάλιση ενός συνόλου Apache Hadoop.
HBase για Προγραμματιστές
21 ΏρεςΑυτό το μάθημα παρουσιάζει το HBase – ένα NoSQL καταστήμα στο κορύφωμα του Hadoop. Το μάθημα απευθύνεται σε προγραμματιστές που θα χρησιμοποιήσουν το HBase για να αναπτύξουν εφαρμογές και σε διαχειριστές που θα διαχειρίζονται ομάδες HBase.
Θα διεξαχθεί μια διευγμένη περιήγηση στην αρχιτεκτονική του HBase, το μοντέλο δεδομένων και την ανάπτυξη εφαρμογών πάνω στο HBase. Θα συζητήσουμε επίσης τη χρήση MapReduce με HBase και ορισμένα θέματα διαχείρισης που σχετίζονται με την βελτιστοποίηση των επιδόσεων. Το μάθημα είναι πολύ χειροντικό, με αρκετές άσκησεις εργαστηρίου.
Duration : 3 ημέρες
Audience : Προγραμματιστές & Διαχειριστές
Αποδόσεις Διαχειριστών Apache NiFi
21 ΏρεςO Apache NiFi είναι ένα open-source πλατφόρμα ροής δεδομένων και επεξεργασίας γεγονότων. Ειδυλλιώνει την αυτόματη, πραγματικής χρονικής διάστασης μεταφορά, μετασχηματισμό και ενδιάμεση μέση επεξεργασία δεδομένων μεταξύ ένων διαφορετικών συστημάτων, με χρήση πλατφόρμας με γραφικό περιβάλλον και λεπτομερή ελέγχου.
Αυτή η διδασκαλία υπό την οδηγία του εκπαιδευτικού (χώρος και απομακρυσμένα) απευθύνεται σε διοικητές και μηχανικούς μεδίου επιπέδου, οι οποίοι επιθυμούν να εφαρμόσουν, να διαχειριστούν, να ασφαλίσουν και να βελτιστοποιήσουν ροές δεδομένων NiFi σε παραγωγικά περιβάλλοντα.
Στο τέλος αυτής της εκπαίδευσης, οι συμμετέχοντες θα είναι σε θέση να:
- Εγκαταστήσουν, να ρυθμίσουν και να διατηρήσουν συστήματα συστήματος Apache NiFi.
- Σχεδιάσουν και να διαχειρίζονται ροές δεδομένων από διάφορες πηγές και θερμοκρασίες.
- Εφαρμόσουν λογική αυτοματοποίησης, διαδρομής και μετασχηματισμού ροής.
- Βελτιστοποιήσουν την απόδοση, να παρακολουθήσουν τις λειτουργίες και να εξασφαλίσουν χαλάρωση προβλημάτων.
Μορφή του Μαθήματος
- Αλληλεπιδραστική παράσταση με συζήτηση αρχιτεκτονικής πραγματικού κόσμου.
- Εργασίες χειρονομήτρου: κατασκευή, εφαρμογή και διαχείριση ροών.
- Ασκήσεις με σενάρια σε ζωντανό περιβάλλον εργαστηρίου.
Επιλογές Προσαρμογής Μαθήματος
- Για να κάνετε αίτηση για προσαρμοσμένη εκπαίδευση για αυτό το μάθημα, παρακαλούμε επικοινωνήστε μαζί μας για να οργανώσετε.
Apache NiFi για Εξελίσσονται
7 ΏρεςΣε αυτή τη ζωντανή εκπαίδευση στο Ελλάδα, καθοδηγούμενη από εκπαιδευτές, οι συμμετέχοντες θα μάθουν τις βασικές αρχές του προγραμματισμού που βασίζεται στη ροή καθώς αναπτύσσουν έναν αριθμό από επεκτάσεις επίδειξης, στοιχεία και επεξεργαστές χρησιμοποιώντας το Apache NiFi.
Με το τέλος αυτής της εκπαίδευσης, οι συμμετέχοντες θα είναι σε θέση:
- Κατανοήστε την αρχιτεκτονική του NiFi και τις έννοιες ροής δεδομένων.
- Αναπτύξτε επεκτάσεις χρησιμοποιώντας NiFi και API τρίτων.
- Προσαρμοσμένα αναπτύσσουν τον δικό τους επεξεργαστή Apache Nifi.
- Απορροφήστε και επεξεργαστείτε δεδομένα σε πραγματικό χρόνο από διαφορετικές και ασυνήθιστες μορφές αρχείων και πηγές δεδομένων.
PySpark και Μηχανική Μάθησης
21 ΏρεςΗ παρούσα εκπαίδευση παρέχει μια πρακτική εισαγωγή στην κατασκευή επεκτάσιμων ροών εργασίας επεξεργασίας δεδομένων και Μηχανικής Μάθησης με τη χρήση του PySpark. Οι συμμετέχοντες μαθαίνουν πώς λειτουργεί το Apache Spark εντός των σύγχρονων οικοσυστημάτων Big Data και πώς να επεξεργάζονται αποτελεσματικά μεγάλα σύνολα δεδομένων, αξιοποιώντας τις αρχές της κατανεμημένης επεξεργασίας.
Python και Spark για Μεγάλα Δεδομένα (PySpark)
21 ΏρεςΣε αυτήν τη ζωντανή εκπαίδευση στο Ελλάδα, καθοδηγούμενη από εκπαιδευτές, οι συμμετέχοντες θα μάθουν πώς να χρησιμοποιούν το Python και το Spark μαζί για να αναλύουν μεγάλα δεδομένα καθώς εργάζονται σε πρακτικές ασκήσεις.
Με το τέλος αυτής της εκπαίδευσης, οι συμμετέχοντες θα είναι σε θέση:
- Μάθετε πώς να χρησιμοποιείτε το Spark με το Python για την ανάλυση του Big Data.
- Εργαστείτε σε ασκήσεις που μιμούνται πραγματικές περιπτώσεις.
- Χρησιμοποιήστε διαφορετικά εργαλεία και τεχνικές για την ανάλυση μεγάλων δεδομένων χρησιμοποιώντας το PySpark.
Python, Spark και Hadoop για Μεγάλα Δεδομένα
21 ΏρεςΑυτή η ζωντανή εκπαίδευση υπό την καθοδήγηση εκπαιδευτών στο Ελλάδα (διαδικτυακό ή επιτόπου) απευθύνεται σε προγραμματιστές που επιθυμούν να χρησιμοποιήσουν και να ενσωματώσουν το Spark, Hadoop και Python για να επεξεργαστούν, να αναλύσουν και να μετασχηματίσουν μεγάλα και πολύπλοκα σύνολα δεδομένων.
Με το τέλος αυτής της εκπαίδευσης, οι συμμετέχοντες θα είναι σε θέση:
- Ρυθμίστε το απαραίτητο περιβάλλον για να ξεκινήσετε την επεξεργασία μεγάλων δεδομένων με το Spark, Hadoop και Python.
- Κατανοήστε τα χαρακτηριστικά, τα βασικά στοιχεία και την αρχιτεκτονική του Spark και Hadoop.
- Μάθετε πώς να ενσωματώνετε το Spark, Hadoop και Python για επεξεργασία μεγάλων δεδομένων.
- Εξερευνήστε τα εργαλεία στο οικοσύστημα Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka και Flume).
- Δημιουργήστε συνεργατικά συστήματα προτάσεων φιλτραρίσματος παρόμοια με το Netflix, το YouTube, το Amazon, το Spotify και το Google.
- Χρησιμοποιήστε το Apache Mahout για να κλιμακώσετε τους αλγόριθμους μηχανικής μάθησης.
Stratio: Ροκέτ και Δυναμικά Μόδουλα με PySpark
14 ΏρεςStratio είναι μια πλατφόρμα αξιοθέτησης δεδομένων που ενσωματώνει τα big data, την AI και την governance σε μία έντελη λύση. Οι modula Rocket και Intelligence επιτρέπουν γρήγορη αναζήτηση, μετάφραση δεδομένων και προβληματική ανάλυση σε εντελειώδη περιβάλλοντα.
Αυτό το δίδασκτρο με οργανωμένη καθοδήγηση (πολύχρωμος ή live) στόχο ενισχύει τους μεσαίου επιπέδου δεδομένων επαγγελματίες που επιθυμούν να χρησιμοποιήσουν τα modula Rocket και Intelligence στο Stratio αποτελεσματικά με PySpark, εστίαζόντας σε περιβάλλοντα διαδηλώσεων, χρήστες-ορισμένες λειτουργίες και προβληματικά δεδομένα.
Στο τέλος αυτής της εκπαίδευσης, οι συμμετέχοντες θα μπορούν να:
- Να περιφέρονται και να εργάζονται στην Stratio platform χρησιμοποιώντας τους modula Rocket και Intelligence.
- Να εφαρμόζουν PySpark σε περιβάλλοντα δεδομένων ingestion, transformation, και analysis.
- Να χρησιμοποιούν loops και συνθηκική λογική για τον έλεγχο δεδομένων workflows και feature engineering tasks.
- Να δημιουργούν και να διαχειρίζονται χρήστες-ορισμένες λειτουργίες (UDFs) για μεταχειριστό data operations στο PySpark.
Μορφή της Εκπαίδευσης
- Διεξοδική εισαγωγή και συζήτηση.
- Πολλά ασκήσεις και πρακτική.
- Αλληλεπίδραση σε μια live-lab περιβάλλον.
Επιλογές Διεξαγωγής Προσαρμοστικών
- Για να αιτηθεί μια προσαρμοσμένη εκπαίδευση για αυτό το δίδασκο, παρακαλώ συνεχίζετε μας.
Εισαγωγή στην Οπτικοποίηση Δεδομένων με Tidyverse και R
7 ΏρεςΠαρεύσιμο
Σχήμα της εκπαιδευτικής μάθησης
Κατά το τέλος αυτής της εκπαιδευτικής μάθησης, οι συμμετέχοντες θα μπορούν να:
Σε αυτή την εκπαιδευτική μάθηση με πρόσωπο εξηγητή, οι συμμετέχοντες θα μάθουν να ελέγχουν και να απεικονίζουν δεδομένα χρησιμοποιώντας τα εργαλεία που περιλαμβάνονται στο Tidyverse.
Το Tidyverse είναι μια συλλογή ρολόηγων ακτινού περιβάλλον (R) για καθαρισμό, επεξεργασία, μοντελοποίηση και απεικόνιση δεδομένων. Κάποια από τα ρολόηγα που περιλαμβάνονται είναι: ggplot2, dplyr, tidyr, readr, purrr και tibble.
- Αρχάριοι στη γλώσσα R
- Αρχάριοι στην ανάλυση και την απεικόνιση δεδομένων
- Μέρος λόγου, μέρος συζήτησης, ασκήσεις και πολύπλοκη εφαρμογή
- Να εκτελέσουν ανάλυση δεδομένων και να δημιουργήσουν υπεύθυνες αποδείξεις
- Να συλλέξουν επωφελείς κατασκευές από διάφορες σημειώσεις πίνακες δεδομένων
- Να φίλτραρουν, να ταξινομήσουν και να συμπεριφέρουν δεδομένα για να απαντήσουν σε προσκαρτώρηση ερωτήσεις
- Να μετατρέψουν τα επεξεργασμένα δεδομένα σε πληροφοριακά γραφήματα γραμμών, ορόσωμα-χάρτες και ιστόγραμμα
- Να εισάγουν και να φίλτραρουν δεδομένα από ποικιλούς πηγές δεδομένων, συμπεριλαμβανομένων Excel, CSV και αρχεία SPSS