Course Outline
Εισαγωγή
Εγκατάσταση και ρύθμιση Dataiku Data Science Studio (DSS)
- Συστημικές απαιτήσεις για το Dataiku DSS
- Ρύθμιση των ενσωματώσεων Apache Hadoop και Apache Spark
- Ρύθμιση του Dataiku DSS με δικτυακούς προβλήτες (web proxies)
- Μεταφορά από άλλες πλατφόρμες στο Dataiku DSS
Περίληψη των χαρακτηριστικών και του αρχιτεκτονικού σχήματος του Dataiku DSS
- Σημαντικές πυθμένες και γραφέματα που αποτελούν τη βάση του Dataiku DSS
- Τι είναι μια συνταγή (recipe) στο Dataiku DSS;
- Είδη προς αποθήκευση δεδομένων (datasets) που υποστηρίζει το Dataiku DSS
Δημιουργία ενός Προ젝κτ Dataiku DSS
Ορισμός προς αποθήκευση δεδομένων (datasets) για σύνδεση με πηγές δεδομένων στο Dataiku DSS
- Εργασία με επικοινωνητές (connectors) και μορφές αρχείων του DSS
- Τυπικές μορφές DSS vs. μορφές ειδικά για Hadoop
- Ανεβάσιμο αρχείων για ένα πρότζεκτ Dataiku DSS
Περίληψη του διακομιστικού κυκλικού μεγέθους (filesystem) στο Dataiku DSS
Δημιουργία και χρήση επιχειρησιακών φακέλων (managed folders)
- Συνταγή Dataiku DSS για συγχώνευση φακέλων
- Τοπικοί vs. μη-τοπικοί επιχειρησιακοί φάκελοι (managed folders)
Δημιουργία Προς αποθήκευση δεδομένων (datasets) με χρήση περιεχομένου επιχειρησιακών φακέλων
- Εκτέλεση καθαρίζουσων διαδικασιών (cleanups) με χρήση συνταγής κώδικα του DSS
Εργασία με προς αποθήκευση δεδομένων (datasets) πληροφοριών και εσωτερικές συστατικές δεδομένων
Εφαρμογή της συνταγής λήψης (download recipe) για HTTP προς αποθήκευση δεδομένων
Μεταφορά SQL και HDFS προς αποθήκευση δεδομένων με το DSS
Ταξινόμηση προς αποθήκευση δεδομένων (datasets) στο Dataiku DSS
- Ταξινόμηση κατά γραφή vs. ταξινόμηση κατά ανάγνωση (read-time ordering)
Εξερεύνηση και προετοιμασία δεδομένων για επικοινωνία (visuals) σε ένα πρότζεκτ Dataiku DSS
Περίληψη των υποσχημάτων, τύπων αποθήκευσης και νοημάτων (meanings) στο Dataiku
Εκτέλεση διακρίνουσων, εξαρτημένων και πλουσίωσης (enrichment) απόδοση σε Dataiku DSS
Εργασία με τη διεπαφή χάρτων και είδη οπτικών συμπερασμάτων (visual aggregations) στο Dataiku DSS
Χρήση του ιδιόχειρου στατιστικού χαρακτηριστικού (interactive statistics) του DSS
- Μονομεταβλητή ανάλυση vs. δίδυμη ανάλυση
- Χρήση του εργαλείου Principal Component Analysis (PCA) του DSS
Περίληψη της μηχανικής μάθησης (machine learning) με Dataiku DSS
- Εποπτική ML vs. μη-εποπτική ML
- Αναφορές για τους αλγόριθμους και τις χαρακτηριστικές επεξεργασίας δεδομένων ML στο DSS
- Βάθος μάθησης (Deep Learning) με Dataiku DSS
Περίληψη του ροή πλυνιστή (flow) που παράγεται από τις προς αποθήκευση δεδομένων και συνταγές DSS
Μετασχηματισμός υφιστάμενων προς αποθήκευση δεδομένων (datasets) στο DSS με χρήση οπτικών συνταγών
Χρήση συνταγών DSS που βασίζονται σε κωδικό που ορίζεται από τον χρήστη
Βελτιστοποίηση της εξερεύνησης και δοκιμασίας (exploration and experimentation) του κώδικα με χρήση DSS Code Notebooks
Σύγκειση προχωρημένων οπτικοποιήσεων (visualizations) και εξατομικευμένων χαρακτηριστικών μπροστά (frontend features) με τη χρήση Webapps
Εργασία με το χαρακτηριστικό Code Reports στο Dataiku DSS
Κοινή χρήση (sharing) στοιχείων προτζεκτ και εξατομικευμένη γνωριμία με τον πίνακα (dashboard) DSS
Σχεδιασμός και συσκευασμός ενός προτζεκτ Dataiku DSS ως αποδεκτή εφαρμογή (reusable application)
Περίληψη των πιο προχωρημένων μεθόδων στο Dataiku DSS
- Εφαρμογή βελτιστοποιημένου κατανεμημένου αποθηκευτικού (partitioning) προς αποθήκευση δεδομένων με το DSS
- Εκτέλεση συγκεκριμένων τμημάτων επεξεργασίας (processing parts) DSS μέσω υπολογισμών σε περιβάλλον Kubernetes containers
Περίληψη της κοινής εργασίας (collaboration) και διαχείρισης έκδοσης (version control) στο Dataiku DSS
Εφαρμογή αυτόματων σενάριων, μετρήσεων και ελέγχων (checks) για το δοκιμαστικό πρότζεκτ DSS
Κατάδεση και ενημέρωση ενός προτζεκτ με το Automation Node και Bundles του DSS
Εργασία με Αυτόματες API στο Dataiku DSS
- Επιπλέον APIs και REST APIs στο DSS
Ανάλυση και πρόβλεψη χρονικών μεγεθών (time series) Dataiku DSS
Διασφάλιση ασφάλειας ενός προτζεκτ στο Dataiku DSS
- Διαχείριση άδειων πρότζεκτ και αυθεντικοποίησης διατάξεων (dashboard authorizations)
- Εφαρμογή προχωρημένων επιλογών ασφάλειας
Ένταξη του Dataiku DSS με το Cloud
Εκτόπιση και διαμόρφωση (troubleshooting)
Περίληψη και συμπέρασμα
Requirements
- Εμπειρία με τις γλώσσες προγραμματισμού Python, SQL και R.
- Βασική γνώση επεξεργασίας δεδομένων με Apache Hadoop και Spark.
- Κατανόηση των αρχών του μηχανικού μάθηματος και των δεδομένων.
- Εμπειρία στις στατιστικές αναλύσεις και τα πρότυπα της επιστήμης δεδομένων.
- Εμπειρία στην ανάλυση και επικοινωνία με δεδομένα.
Διευθύνσεις
- Μηχανικοί
- Επιστήμονες Δεδομένων
- Αναλυτές Δεδομένων