Εξέλιξη Κομματιού

Εισαγωγή στην Επιστήμη Δεδομένων για την Ανάλυση Μεγάλων Ποσοστών Δεδομένων

  • Επισκόπηση της Επιστήμης Δεδομένων
  • Επισκόπηση μεγάλων ποσοστών δεδομένων
  • Δομές Δεδομένων
  • Κινητήριες δυνάμεις και πολυπλοκότητα των μεγάλων ποσοστών δεδομένων
  • Η οικοσύστημα μεγάλων ποσοστών δεδομένων και νέα προσέγγιση στην ανάλυση
  • Βασικές τεχνολογίες μεγάλων ποσοστών δεδομένων
  • Η διαδικασία εξόρυξης δεδομένων και τα προβλήματα αυτής
    • Εξόρυξη σχέσεων (Association Pattern Mining)
    • Ομαδοποίηση δεδομένων (Data Clustering)
    • Ανίχνευση εκτός κανονικών σημείων (Outlier Detection)
    • Ταξινόμηση δεδομένων (Data Classification)

Εισαγωγή στο κύκλο ζωής ανάλυσης δεδομένων

  • Ανακάλυψη
  • Προετοιμασία δεδομένων
  • Σχεδιασμός μοντέλου
  • Κατασκευή μοντέλου
  • Παρουσίαση/Επικοινωνία αποτελεσμάτων
  • Εφαρμογή (Operationalization)
  • Άσκηση: Συγκριτική μελέτη περίπτωσης

Από αυτό το σημείο, το 80% του χρόνου εκπαίδευσης θα προορίζεται για παραδείγματα και ασκήσεις στην R και σχετικές τεχνολογίες μεγάλων ποσοστών δεδομένων.

Χρήση της R

  • Εγκατάσταση της R και του Rstudio
  • Χαρακτηριστικά της γλώσσας R
  • Αντικείμενα στην R
  • Δεδομένα στην R
  • Μεταχείριση δεδομένων
  • Προβλήματα μεγάλων ποσοστών δεδομένων
  • Άσκηση

Χρήση του Hadoop

  • Εγκατάσταση του Hadoop
  • Κατανόηση των λειτουργιών του Hadoop
  • HDFS (Ηλεκτρονικό Σύστημα Αποθήκευσης)
  • Αρχιτεκτονική MapReduce
  • Επισκόπηση σχετικών προ젝τών Hadoop
  • Συγγραφή προγραμμάτων στο MapReduce του Hadoop
  • Άσκηση

Ενσωμάτωση R και Hadoop με RHadoop

  • Συστατικά του RHadoop
  • Εγκατάσταση του RHadoop και σύνδεση με Hadoop
  • Αρχιτεκτονική του RHadoop
  • Streaming Hadoop με R
  • Λύση προβλημάτων ανάλυσης δεδομένων με RHadoop
  • Άσκηση

Προεπεξεργασία και προετοιμασία δεδομένων

  • Βήματα προεπεξεργασίας δεδομένων
  • Εκχώρηση χαρακτηριστικών (Feature Extraction)
  • Καθαρισμός δεδομένων (Data Cleaning)
  • Ενσωμάτωση και μετατροπή δεδομένων
  • Μείωση δεδομένων - δειγματοληψία, εξαγωγή υποσυνόλων χαρακτηριστικών
  • Μείωση διάστασης (Dimensionality Reduction)
  • Αποδοχή και επιβολή όριων (Discretization and Binning)
  • Άσκηση και συγκριτική μελέτη περίπτωσης

Εξερευνητικές μέθοδοι ανάλυσης δεδομένων στην R

  • Περιγραφική στατιστική (Descriptive Statistics)
  • Εξερευνητική ανάλυση δεδομένων
  • Οπτικοποίηση - προαρχικά βήματα
  • Εξέταση μεταβλητών αυθαίρετως
  • Στατιστικές μέθοδοι εκτίμησης
  • Εξετασμός υποθέσεων (Hypothesis Testing)
  • Άσκηση και συγκριτική μελέτη περίπτωσης

Οπτικοποίηση δεδομένων

  • Βασική οπτικοποίηση στην R
  • Πακέτα για οπτικοποίηση δεδομένων: ggplot2, lattice, plotly, lattice
  • Μόρφωση ζωγραφιών στην R
  • Προηγμένα γράφηματα
  • Άσκηση

Απόδοση (Εκτίμηση μελλοντικών τιμών)

  • Γραμμική απόδοση
  • Περιπτωμένες χρήσεις
  • Περιγραφή μοντέλου
  • Διαγνώστικη ανάλυση (Diagnostics)
  • Προβλήματα γραμμικής απόδοσης
  • Μεθόδους υποχώρησης, ρίγκ διάστασης (ridge regression), λασό (lasso)
  • Γενίκευση και μη γραμμικότητα
  • Σπλάιν εξάρτησης (Regression splines)
  • Τοπική πολυωνύμικη απόδοση (Local polynomial regression)
  • Σχετικά μοντέλα συναυξανόμενης γραμμικότητας
  • Απόδοση με RHadoop
  • Άσκηση και συγκριτική μελέτη περίπτωσης

Ταξινόμηση (Classification)

  • Προβλήματα σχετικά με τη ταξινόμηση
  • Επανεξέταση βαυζιανικών ιδεών (Bayesian refresher)
  • Ναιϊβος Βάυζιανος (Naïve Bayes)
  • Γραμμική απόδοση (Logistic regression)
  • K-γείτονες (K-nearest neighbors)
  • Αλγόριθμος δέντρων απόφασης
  • Νευρωνικά δίκτυα (Neural networks)
  • Μηχανή υποστήριξης διανύσματος (Support vector machines)
  • Διαγνώστικη ανάλυση των ταξινομητών
  • Σύγκριση μεθόδων ταξινόμησης
  • Μεγάλη κλίμακα αλγόριθμοι ταξινόμησης
  • Άσκηση και συγκριτική μελέτη περίπτωσης

Αξιολόγηση ταξινομητών και επιλογή μοντέλου

  • Προκατάληψη, διαφορετικότητα και περιπλοκότητα των μοντέλων
  • Ακρίβεια vs Εξήγηση (Accuracy vs Interpretability)
  • Εκτίμηση ταξινομητών
  • Μέτρα απόδοσης μοντέλων/αλγορίθμων
  • Η μέθοδος κράτησης (Hold-out method of validation)
  • Καταστοιχισμός επαλήθευσης
  • Ρύθμιση μηχανών μάθησης αλγορίθμων με το πακέτο caret
  • Οπτικοποίηση της απόδοσης του μοντέλου με καμπύλες Profit ROC και Lift curves

Συνολικές Μέθοδοι (Ensemble Methods)

  • Bagging
  • Τυχαία Δάση (Random Forests)
  • Boosting
  • Gradient Boosting
  • Άσκηση και συγκριτική μελέτη περίπτωσης

Μηχανές υποστήριξης διανύσματος για ταξινόμηση και απόδοση (Support Vector Machines for Classification and Regression)

  • Μηχανές Μεγίστης Περιθώριας (Maximal Margin classifiers)
    • Ταξινομητής υποστήριξης διανύσματος
    • Μηχάνες υποστήριξης διανύσματος (Support vector machines)
    • Μηχανές υποστήριξης διανύσματος για προβλήματα ταξινόμησης
    • Μηχανές υποστήριξης διανύσματος για προβλήματα απόδοσης
  • Άσκηση και συγκριτική μελέτη περίπτωσης

Αναγνώριση άγνωστων ομάδων εντός συνόλου δεδομένων (Identifying unknown groupings within a data set)

  • Εκχώρηση χαρακτηριστικών για ομαδοποίηση
  • Αλγόριθμοι που βασίζονται σε εκπροσώπους: k-άριθμο, k-medoids
  • Ιεραρχικοί αλγόριθμοι: ηθικές και διαιρητικές μέθοδοι (Hierarchical algorithms: agglomerative and divisive methods)
  • Πιθανοφάνειες αλγόριθμοι: EM
  • Αλγόριθμοι που βασίζονται σε πυκνότητα: DBSCAN, DENCLUE
  • Επιβεβαίωση ομάδων (Cluster validation)
  • Προηγμένα εννοιών ομαδοποίησης
  • Ομαδοποίηση με RHadoop
  • Άσκηση και συγκριτική μελέτη περίπτωσης

Ανακάλυψη συνδέσεων (Discovering connections with Link Analysis)

  • Εννοιών ανακάλυψης συνδέσεων
  • Μετρήτες για την ανάλυση δικτύων (Metrics for analyzing networks)
  • Ο αλγόριθμος Pagerank
  • Αναζήτηση θέματος βάσει υπερδέσμων (Hyperlink-Induced Topic Search)
  • Πρόβλεψη συνδέσεων
  • Άσκηση και συγκριτική μελέτη περίπτωσης

Εξόρυξη Σχετικών Μοτίβων (Association Pattern Mining)

  • Μοντέλο εξόρυξης συχνών μοτίβων
  • Προβλήματα κλίμακας στην εξόρυξη συχνών μοτίβων (Scalability issues in frequent pattern mining)
  • Βάσεις Βίαιου Δύναμης (Brute Force algorithms)
  • Αλγόριθμος Apriori
  • Η προσέγγιση FP growth
  • Εκτίμηση υποψήφιων κανόνων (Evaluation of Candidate Rules)
  • Εφαρμογές των συχνών κανόνων
  • Επιβεβαίωση και δοκιμή (Validation and Testing)
  • Διάγνωση (Diagnostics)
  • Συχνοί κανόνες με R και Hadoop
  • Άσκηση και συγκριτική μελέτη περίπτωσης

Δημιουργία ανάδειξης συστημάτων (Constructing recommendation engines)

  • Κατανόηση των συστημάτων ανάδειξης
  • Τεχνικές εξόρυξης δεδομένων που χρησιμοποιούνται στα συστήματα ανάδειξης
  • Συστήματα ανάδειξης με το πακέτο recommenderlab
  • Εκτίμηση των συστημάτων ανάδειξης
  • Ανάδειξη με RHadoop
  • Άσκηση: Δημιουργία συστήματος ανάδειξης (Building recommendation engine)

Ανάλυση κειμένου

  • Βήματα ανάλυσης κειμένου
  • Συσσωρεύση ωριμού κειμένου (Collecting raw text)
  • Τζάμα λέξεων (Bag of words)
  • Συχνότητα Λέξεων – Αντίστροφη Συχνότητα Δοκιμής (Term Frequency – Inverse Document Frequency)
  • Ορισμός αισθήματος (Determining Sentiments)
  • Άσκηση και συγκριτική μελέτη περίπτωσης
 35 Ώρες

Αριθμός συμμετέχοντων


Τιμή ανά συμμετοχαστή

Σχόλια (2)

Εφεξής Μαθήματα

Σχετικές Κατηγορίες