Εξέλιξη Κομματιού

Εισαγωγή στην Επιστήμη Δεδομένων για την Ανάλυση Μεγάλων Ποσών Δεδομένων

  • Επισκόπηση Επιστήμης Δεδομένων
  • Επισκόπηση Μεγάλων Ποσών Δεδομένων
  • Δομές Δεδομένων
  • Στοιχεία και περιπλοκότητες των Μεγάλων Ποσών Δεδομένων
  • Η οικοσφαίρα των Μεγάλων Ποσών Δεδομένων και μια νέα προσέγγιση στην ανάλυση
  • Βασικές τεχνολογίες Μεγάλων Ποσών Δεδομένων
  • Ο προβληματισμός και οι δυσκολίες του Data Mining
    • Εξορύγμα συσχέτισης μοτίβων
    • Συστήματα κατάταξης δεδομένων
    • Ανίχνευση απόκλισης
    • Κατάταξη δεδομένων

Εισαγωγή στον κύκλο ζωής της ανάλυσης δεδομένων

  • Ανακαλυψία
  • Προετοιμασία δεδομένων
  • Σχεδιασμός μοντέλου
  • Κατασκευή μοντέλου
  • Παρουσίαση/Επικοινωνία των αποτελεσμάτων
  • Η εφαρμογή
  • Άσκηση: Μελέτη περιπτώσεων

Από αυτό το σημείο, η πλειοψηφία (80%) του χρόνου εκπαίδευσης θα αφιερωθεί σε παραδείγματα και άσκησες με R και σχετικές τεχνολογίες μεγάλων ποσών δεδομένων.

Εισαγωγή στο R

  • Εγκατάσταση R και Rstudio
  • Χαρακτηριστικά της γλώσσας R
  • Αντικείμενα στο R
  • Δεδομένα στο R
  • Χειρισμός δεδομένων
  • Ζητήματα μεγάλων ποσών δεδομένων
  • Άσκηση

Εισαγωγή στο Hadoop

  • Εγκατάσταση Hadoop
  • Κατανόηση των καθεστώτων Hadoop
  • HDFS (Hadoop Distributed File System)
  • Αρχιτεκτονική MapReduce
  • Επισκόπηση σχετικών προ젝τών Hadoop
  • Γραφτικά προγράμματα με Hadoop MapReduce
  • Άσκηση

Ενσωμάτωση R και Hadoop με RHadoop

  • Συστατικά του RHadoop
  • Εγκατάσταση RHadoop και σύνδεση με Hadoop
  • Αρχιτεκτονική του RHadoop
  • Hadoop streaming με R
  • Επίλυση προβλημάτων ανάλυσης δεδομένων με RHadoop
  • Άσκηση

Προεπεξεργασία και προετοιμασία δεδομένων

  • Βήματα προετοιμασίας δεδομένων
  • Εξαγωγή χαρακτηριστικών (feature extraction)
  • Καθάριση δεδομένων (data cleaning)
  • Ενσωμάτωση και μετασχηματισμός δεδομένων
  • Μείωση δεδομένων - εξαγωγή δειγμάτων, επιλογή υποσυνόλου χαρακτηριστικών
  • Μείωση διάστασης (dimensionality reduction)
  • Διακριματικότητα και βαθμολόγηση (discretization and binning)
  • Άσκησες και μελέτη περιπτώσεων

Εξερευνητικές μέθοδοι ανάλυσης δεδομένων στο R

  • Περιγραφική στατιστική (descriptive statistics)
  • Εξερευνητική ανάλυση δεδομένων (exploratory data analysis)
  • Οπτικοποίηση - πρώτα βήματα
  • Παρουσίαση με τη χρήση ενός μεταβλητού (visualizing single variable)
  • Εξέταση πολλαπλών μεταβλητών
  • Στατιστικές μέθοδοι αξιολόγησης (statistical methods for evaluation)
  • Επιστημονική υπόθεση (hypothesis testing)
  • Άσκηση και μελέτη περιπτώσεων

Οπτικοποίηση δεδομένων (Data Visualizations)

  • Βασική οπτικοποίηση στο R
  • Πακέτα για οπτικοποίηση δεδομένων (ggplot2, lattice, plotly, lattice)
  • Μόρφωση πλάνων στο R
  • Προηγμένα γράφημα
  • Άσκηση

Επανάληψη (Regression - Εκτίμηση μελλοντικών τιμών)

  • Γραμμική επανάληψη (linear regression)
  • Χρησιμοποιίες και περιπτώσεις χρήσης (use cases)
  • Περιγραφή του μοντέλου (model description)
  • Διάγνωση προβλημάτων (diagnostics)
  • Προβλήματα στη γραμμική επανάληψη (problems with linear regression)
  • Συσταδικές μεθόδους, ρίγγινγκ και το λασσώ (shrinkage methods, ridge regression, the lasso)
  • Γενίκευση και μη γραμμικότητα (generalizations and nonlinearity)
  • Επαναληπτικές πλέξεις (regression splines)
  • Τοπική πολυωνύμικη επανάληψη (local polynomial regression)
  • Γενικευμένα αποδοτικά μοντέλα (generalized additive models)
  • Επανάληψη με RHadoop
  • Άσκηση και μελέτη περιπτώσεων

Κατάταξη (Classification)

  • Προβλήματα σχετικά με την κατάταξη (the classification related problems)
  • Επανεκδίδασμα Μπέϋζιαν (Bayesian refresher)
  • Ναιϊβού Μπέϊζιαν (Naïve Bayes)
  • Γραμμική κατάταξη (logistic regression)
  • K-γείτονες (K-nearest neighbors)
  • Αλγόριθμος δέντρων απόφασης (decision trees algorithm)
  • Νευρωνικά δίκτυα (neural networks)
  • Μηχανή υποστήριξης διανύσματος (support vector machines)
  • Διάγνωση κατατακτικών μεθόδων (diagnostics of classifiers)
  • Σύγκριση των μεθόδων κατάταξης (comparison of classification methods)
  • Κλίμακας κατάταξης αλγορίθμων (scalable classification algorithms)
  • Άσκηση και μελέτη περιπτώσεων

Αξιολόγηση της επίδοσης του μοντέλου και η επιλογή (Assessing model performance and selection)

  • Προκατάληψη, διαφορετικότητα και περιπλοκότητα του μοντέλου (bias, variance and model complexity)
  • Ακρίβεια αντί για ερμηνευσιμότητα (accuracy vs interpretability)
  • Αξιολόγηση κατατακτικών μεθόδων (evaluating classifiers)
  • Μέτρα απόδοσης του μοντέλου/αλγορίθμου (measures of model/algorithm performance)
  • Η μέθοδος οικοδόχων δεδομένων (hold-out method of validation)
  • Τυπική αξιολόγηση (cross-validation)
  • Παραμετροθέτηση μηχανών μάθησης με το πακέτο caret (tuning machine learning algorithms with caret package)
  • Οπτικοποίηση της επίδοσης του μοντέλου με καμπύλες Profit ROC και Lift (visualizing model performance with Profit ROC and Lift curves)

Συστήματα πολλαπλών συστημάτων (Ensemble Methods)

  • Bagging
  • Random Forests
  • Boosting
  • Gradient boosting
  • Άσκηση και μελέτη περιπτώσεων

Μηχανή υποστήριξης διανύσματος για κατάταξη και επανάληψη (Support vector machines for classification and regression)

  • Κλασσικοί κλάδοι κατατακτικών μεθόδων
    • Μηχανή υποστήριξης διανύσματος (support vector classifiers)
    • Μηχανή υποστήριξης διανύσματος (support vector machines)
    • Μηχανή υποστήριξης διανύσματος για προβλήματα κατάταξης (SVM’s for classification problems)
    • Μηχανή υποστήριξης διανύσματος για προβλήματα επανάληψης (SVM’s for regression problems)
  • Άσκηση και μελέτη περιπτώσεων

Αναγνώριση άγνωστων συμπλοκών εντός ενός συνόλου δεδομένων (Identifying unknown groupings within a data set)

  • Εξαγωγή χαρακτηριστικών για κατάταξη (feature selection for clustering)
  • Αλγόριθμοι με βάση αντιπροσωπευτές: k-means, k-medoids
  • Ιεραρχικοί αλγόριθμοι: συσχετικές και διαιρετικές μεθόδους (hierarchical algorithms: agglomerative and divisive methods)
  • Πιθανοφανιστικά βάση αλγόριθμοι: EM
  • Αλγόριθμοι με βάση πυκνότητα: DBSCAN, DENCLUE
  • Επαλήθευση συστάδων (cluster validation)
  • Προηγμένες έννοιες κατάταξης (advanced clustering concepts)
  • Κατάταξη με RHadoop
  • Άσκηση και μελέτη περιπτώσεων

Ανακαλύψη συνδέσεων με Σύστημα Ανάλυσης Δεσμού (Link Analysis)

  • Σύνθετες εννοιές του Συστήματος Ανάλυσης Δεσμού
  • Μετρικές για την ανάλυση δικτύων (metrics for analyzing networks)
  • Ο αλγόριθμος Pagerank
  • Εξορύγμα με βάση Υπερδέσμους και Αναζήτηση (Hyperlink-Induced Topic Search)
  • Πρόβλεψη δεσμών (Link Prediction)
  • Άσκηση και μελέτη περιπτώσεων

Εξορύγμα συσχέτισης (Association Pattern Mining)

  • Μοντέλο εξόρυξης συχνών μοτίβων (frequent pattern mining model)
  • Ζητήματα κλιμακωτότητας σε ανάλυση δεδομένων (scalability issues in frequent pattern mining)
  • Αλγόριθμοι βίαιης ένδρασης (brute force algorithms)
  • Αλγόριθμος Apriori
  • Η προσέγγιση FP growth
  • Εξέταση ιδιοτήτων υποψήφιων κανόνων (evaluation of candidate rules)
  • Εφαρμογές Συνδεδεμένων Κανόνων (applications of association rules)
  • Επαλήθευση και δοκιμή (validation and testing)
  • Διάγνωση (diagnostics)
  • Συσχέτιση κανόνων με R και Hadoop
  • Άσκηση και μελέτη περιπτώσεων

Κατασκευή συστημάτων αναβίβασης (Constructing recommendation engines)

  • Κατανόηση των συστημάτων αναβίβασης (understanding recommender systems)
  • Τεχνικές μεταξύ δεδομένων που χρησιμοποιούνται σε συστήματα αναβίβασης (data mining techniques used in recommender systems)
  • Συστήματα αναβίβασης με το πακέτο recommenderlab
  • Αξιολόγηση συστημάτων αναβίβασης (evaluating the recommender systems)
  • Αναβίβαση με RHadoop
  • Άσκηση: Κατασκευή συστήματος αναβίβασης (Exercise: Building recommendation engine)

Ανάλυση κειμένου (Text analysis)

  • Βήματα ανάλυσης κειμένου (text analysis steps)
  • Συλλογή αρχικού κειμένου (collecting raw text)
  • Σακίδιο λέξεων (bag of words)
  • Συχνότητα Λέξεων - Γινώσκωντας τη Δοκιμή (Term Frequency – Inverse Document Frequency)
  • Καθορισμός συναισθημάτων (determining sentiments)
  • Άσκηση και μελέτη περιπτώσεων
 35 Ώρες

Αριθμός συμμετέχοντων


Τιμή ανά συμμετέχοντα

Σχόλια (2)

Εφεξής Μαθήματα

Σχετικές Κατηγορίες