Course Outline

Εισαγωγή στο Data Science for Big Data Analytics

    Data Science Επισκόπηση Big Data Επισκόπηση Δομές Δεδομένων Προγράμματα οδήγησης και πολυπλοκότητα του οικοσυστήματος Big Data Big Data και μια νέα προσέγγιση στην ανάλυση Βασικές τεχνολογίες στη διαδικασία και προβλήματα εξόρυξης δεδομένων Big Data Εξόρυξη μοτίβων συσχέτισης Ομαδοποίηση δεδομένων ανίχνευσης ακραίων τιμών Ταξινόμηση δεδομένων

Εισαγωγή στον κύκλο ζωής του Data Analytics

    Ανακάλυψη Προετοιμασία δεδομένων Σχεδιασμός μοντέλου Δόμηση μοντέλου Παρουσίαση/Communication αποτελεσμάτων Άσκηση Λειτουργίας: Μελέτη περίπτωσης

Από αυτό το σημείο το μεγαλύτερο μέρος του χρόνου εκπαίδευσης (80%) θα αφιερωθεί σε παραδείγματα και ασκήσεις στο R και τη σχετική τεχνολογία μεγάλων δεδομένων.

Ξεκινώντας με το R

    Εγκατάσταση R και Rstudio Χαρακτηριστικά της γλώσσας R Αντικείμενα στο R Δεδομένα σε R Διαχείριση δεδομένων Ζητήματα μεγάλων δεδομένων Ασκήσεις

Ξεκινώντας με το Hadoop

    Εγκατάσταση Hadoop Κατανόηση των λειτουργιών Hadoop Αρχιτεκτονική HDFS MapReduce Hadoop επισκόπηση σχετικών έργων Σύνταξη προγραμμάτων σε Hadoop ασκήσεις MapReduce

Ενσωμάτωση των R και Hadoop με RHadoop

    Στοιχεία του RHadoop Εγκατάσταση του RHadoop και σύνδεση με Hadoop Η αρχιτεκτονική του RHadoop Hadoop ροής με R Επίλυση προβλημάτων ανάλυσης δεδομένων με ασκήσεις RHadoop

Προεπεξεργασία και προετοιμασία δεδομένων

    Βήματα προετοιμασίας δεδομένων Εξαγωγή χαρακτηριστικών Καθαρισμός δεδομένων Ενσωμάτωση και μετασχηματισμός δεδομένων Μείωση δεδομένων – δειγματοληψία, επιλογή υποσυνόλου χαρακτηριστικών, μείωση διαστάσεων Διακριτικοποίηση και δέσμευση Ασκήσεις και μελέτη περίπτωσης

Διερευνητικές μέθοδοι ανάλυσης δεδομένων στο R

    Περιγραφική στατιστική Διερευνητική ανάλυση δεδομένων Οπτικοποίηση – προκαταρκτικά βήματα Οπτικοποίηση μεμονωμένης μεταβλητής Εξέταση πολλαπλών μεταβλητών Στατιστικές μέθοδοι αξιολόγησης Έλεγχος υποθέσεων Ασκήσεις και μελέτη περίπτωσης

Data Visualizations

    Βασικές απεικονίσεις στο R Πακέτα για οπτικοποίηση δεδομένων ggplot2, lattice, plotly, lattice Μορφοποίηση γραφημάτων σε R Προηγμένα γραφήματα Ασκήσεις

Παλινδρόμηση (Εκτίμηση μελλοντικών τιμών)

    Γραμμική παλινδρόμηση Περιπτώσεις χρήσης Περιγραφή μοντέλου Διαγνωστικά προβλήματα με γραμμική παλινδρόμηση Μέθοδοι συρρίκνωσης, παλινδρόμηση κορυφογραμμής, το λάσο Γενικεύσεις και μη γραμμικότητα Σφυρίδες παλινδρόμησης Τοπική πολυωνυμική παλινδρόμηση Γενικευμένα προσθετικά μοντέλα Παλινδρόμηση με RHadoop Ασκήσεις και μελέτη περίπτωσης

Ταξινόμηση

    Τα προβλήματα που σχετίζονται με την ταξινόμηση Μπεϋζιανή ανανέωση Naïve Bayes Λογιστική παλινδρόμηση Κ-πλησιέστεροι γείτονες Αλγόριθμος δέντρων αποφάσεων Νευρωνικά δίκτυα Υποστήριξη διανυσματικών μηχανών Διαγνωστικά ταξινομητών Σύγκριση μεθόδων ταξινόμησης Scalable αλγόριθμοι ταξινόμησης Ασκήσεις και μελέτη περίπτωσης

Αξιολόγηση απόδοσης και επιλογής μοντέλου

    Μεροληψία, διακύμανση και πολυπλοκότητα μοντέλου Ακρίβεια έναντι ερμηνείας Αξιολόγηση ταξινομητών Μετρήσεις απόδοσης μοντέλου/αλγορίθμου Μέθοδος επικύρωσης αναμονής Διασταυρούμενη επικύρωση Συντονισμός αλγορίθμων μηχανικής μάθησης με πακέτο caret Οπτικοποίηση απόδοσης μοντέλου με καμπύλες Profit ROC και Lift

Μέθοδοι συνόλου

    Bagging Random Forests Boosting Gradient Boosting Exercises and Case case

Υποστήριξη διανυσματικών μηχανών για ταξινόμηση και παλινδρόμηση

    Ταξινομητές μέγιστου περιθωρίου Υποστήριξη ταξινομητών διανυσμάτων Υποστήριξη διανυσματικών μηχανών SVM για προβλήματα ταξινόμησης SVM για προβλήματα παλινδρόμησης
Ασκήσεις και μελέτη περίπτωσης
  • Προσδιορισμός άγνωστων ομαδοποιήσεων μέσα σε ένα σύνολο δεδομένων
  • Επιλογή χαρακτηριστικών για αλγόριθμους που βασίζονται σε ομαδοποίηση: k-means, k-medoids Ιεραρχικοί αλγόριθμοι: αθροιστικές και διαιρετικές μέθοδοι Αλγόριθμοι αλγόριθμων αλγορίθμων βάσης πιθανοτήτων: αλγόριθμοι βασισμένοι στην πυκνότητα EM: DBSCAN, DENCLUE Επικύρωση συμπλέγματος Προηγμένη μελέτη συμπλέγματος Cluster με Έννοιες εξαίρεσης Cluster και CHadoop

      Ανακάλυψη συνδέσεων με την Ανάλυση συνδέσμων

    Έννοιες ανάλυσης συνδέσμων Μετρικές για την ανάλυση δικτύων Ο αλγόριθμος κατάταξης σελίδας Θέμα που προκαλείται από υπερ-σύνδεση Search Ασκήσεις πρόβλεψης συνδέσμων και μελέτη περίπτωσης

      Εξόρυξη προτύπων ένωσης

    Συχνά μοντέλα εξόρυξης προτύπων Scala ζητήματα ικανότητας στη συχνή εξόρυξη προτύπων Αλγόριθμοι ωμής δύναμης Αλγόριθμος Apriori Η προσέγγιση ανάπτυξης FP Αξιολόγηση κανόνων υποψηφίου Εφαρμογές κανόνων συσχέτισης Κανόνες επικύρωσης και δοκιμών Διαγνωστικοί κανόνες σύνδεσης με ασκήσεις R και Hadoop και μελέτη περίπτωσης

      Κατασκευή κινητήρων συστάσεων

    Κατανόηση συστημάτων συστάσεων Τεχνικές εξόρυξης δεδομένων που χρησιμοποιούνται σε συστήματα συστάσεων Συστήματα συστάσεων με πακέτο συστάσεων Αξιολόγηση των συστημάτων συστάσεων Συστάσεις με RHadoop Άσκηση: Κατασκευή μηχανής συστάσεων

      Ανάλυση κειμένου

    Βήματα ανάλυσης κειμένου Συλλογή ακατέργαστου κειμένου Τσάντα λέξεων Όρος Συχνότητα –Αντίστροφο έγγραφο Συχνότητα Προσδιορισμός Συναισθημάτων Ασκήσεις και μελέτη περίπτωσης

     35 Hours

    Number of participants



    Price per participant

    Testimonials (2)

    Related Courses

    GPU Data Science with NVIDIA RAPIDS

    14 Hours

    Anaconda Ecosystem for Data Scientists

    14 Hours

    Unified Batch and Stream Processing with Apache Beam

    14 Hours

    Apache Apex: Processing Big Data-in-Motion

    21 Hours

    Apache Storm

    28 Hours

    Apache Flink Fundamentals

    28 Hours

    Related Categories