Εξέλιξη Κομματιού

Κάθε συνεδρίαση διαρκεί 2 ώρες

Ημέρα-1: Συνεδρίαση -1: Γενική Περίληψη των Μεγάλων Δεδομένων και της Επιχειρηματικής Νοηματικής στην Κυβέρνηση

  • Σπουδαιότητες από το NIH, DoE
  • Ρυθμίσεις εξάρτησης των Μεγάλων Δεδομένων σε κυβερνητικές αρχές και πώς εξαρμόζουν τις μελλοντικές λειτουργίες τους γύρω από την Προϊσταμένη Ανάλυση των Μεγάλων Δεδομένων
  • Πλήρης κλίμακα εφαρμογών στο DoD, NSA, IRS, USDA κ.α.
  • Σύνδεση Μεγάλων Δεδομένων με Παλαιότερα Δεδομένα
  • Βασική κατανόηση των υποστηριζόμενων τεχνολογιών στην Προϊσταμένη Ανάλυση
  • Ενσωμάτωση Δεδομένων και Οπτική Παρουσίαση με πίνακες ελέγχου
  • Διαχείριση Απάτης
  • Παραγωγή Κανόνων Επιχειρήματος / Διακύβευση απάτης
  • Ανίχνευση και προφίλ χρηστών διακυβέυσης
  • Ανάλυση απόδοσης για την εφαρμογή Μεγάλων Δεδομένων

Ημέρα-1: Συνεδρίαση -2 : Εισαγωγή στα Μεγάλα Δεδομένα - 1

  • Βασικές χαρακτηριστικές των Μεγάλων Δεδομένων- όγκος, ποικιλία, ταχύτητα και αξιοπιστία. MPP αρχιτεκτονική για τον όγκο.
  • Βάσεις Δεδομένων - στατικό πρότυπο, αρχικά εξελίσσονται δεδομένα
  • MPP Βάσεις Δεδομένων όπως Greenplum, Exadata, Teradata, Netezza, Vertica κ.α.
  • Λύσεις με βάση Hadoop - χωρίς προϋπολογισμό στο πρότυπο δεδομένων.
  • Τυπικό κύκλο : HDFS, MapReduce (χαλάζι), ανάκτηση από το HDFS
  • Batch - ιδανική για αναλυτικές / μη διαδραστικές εφαρμογές
  • Όγκος : CEP ρευστά δεδομένα
  • Τυπικές επιλογές - CEP προϊόντα (π.χ. Infostreams, Apama, MarkLogic κ.α)
  • Μείωση γρήγορη - Storm/S4
  • NoSQL Βάσεις Δεδομένων - (στηλακτόπετρες και key-value): καλύτερες ως αναλυτική πρόσθετη βάση δεδομένων

Ημέρα-1 : Συνεδρίαση -3 : Εισαγωγή στα Μεγάλα Δεδομένα - 2

NoSQL λύσεις

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (Ιεραρχικό) - GT.m, Cache
  • KV Store (Ταξινομημένο) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Object Database - ZopeDB, DB40, Shoal
  • Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Ποικιλία δεδομένων: Εισαγωγή στην πρόβλημα της καθαρισμού δεδομένων στα Μεγάλα Δεδομένα

  • RDBMS - στατική δομή / πρότυπο, δεν υποστηρίζει την εξελιστική και έρευνη μοιρανά.
  • NoSQL - ημιδομημένη, αρκετή δομή για να αποθηκεύσουν δεδομένα χωρίς τελικό πρότυπο πριν από την αποθήκευση
  • Προβλήματα καθαρισμού δεδομένων

Ημέρα-1 : Συνεδρίαση -4 : Εισαγωγή στα Μεγάλα Δεδομένα - 3: Hadoop

  • Πότε να επιλέξουμε το Hadoop;
  • ΔΟΜΗΜΕΝΑ - Η Επιχειρησιακή Βάση Δεδομένων μπορεί να αποθηκεύσει τεράστια δεδομένα (με κόστος) αλλά επιβάλλει πρότυπο (δεν είναι καλή για εξερευνητικές αναλύσεις)
  • ΗΜΙΔΟΜΗΜΕΝΑ δεδομένα - δύσκολα με παραδοσιακές λύσεις (DW/DB)
  • Αποθήκευση δεδομένων = ΤΕΡΛΙΜΗ επιχείρηση και στατική ακόμη μετά την υλοποίηση
  • Για ποικιλία και όγκο δεδομένων, εξυπηρετητής σε απλά υλικά - HADOOP
  • Απλό υλικό που χρειάζεται για τη δημιουργία Συστήματος Hadoop Cluster

Εισαγωγή στο Map Reduce /HDFS

  • MapReduce - κατανεμημένη υπολογιστική σε πολλά διακομιστές
  • HDFS - απόδοχη των δεδομένων επιτόπου για την υπολογιστική διαδικασία (με πολυπλοκότητα)
  • Δεδομένα - μπορεί να είναι ανάδοχο / χωρίς πρότυπο (σε αντίθεση με το RDBMS)
  • Υποχρεωτικό για τον διαμόρφωση των δεδομένων
  • Προγραμματισμός MapReduce = εργασία με Java (πλεονεκτήματα / ανεφάρμοστες), χειροκίνητη φόρτωση δεδομένων στο HDFS

Ημέρα-2: Συνεδρίαση -1: Κύκλος Μεγάλων Δεδομένων: Επιλογή του κατάλληλου εργαλείου για Μεγάλα Δεδομένα - πότε να χρησιμοποιηθεί;

  • Hadoop vs. άλλες λύσεις NoSQL
  • Για διαδραστική, τυχαία πρόσβαση σε δεδομένα
  • Hbase (στήλων-πορευμένη βάση δεδομένων) επι του Hadoop
  • Τυχαία πρόσβαση σε δεδομένα αλλά με περιορισμούς (το πολύ 1 PB)
  • Δεν είναι καλή για άμεση ανάλυση, καλή για καταγραφή, μέτρηση, χρονοσειρές
  • Sqoop - Εισαγωγή από βάσεις δεδομένων σε Hive ή HDFS (JDBC/ODBC πρόσβαση)
  • Flume - Ροή δεδομένων (π.χ. καταγραφή δεδομένων) σε HDFS

Ημέρα-2: Συνεδρίαση -2: Διαχείριση Μεγάλων Δεδομένων

  • Κινουμένα τμήματα, προσαρμογή και αποτυχία υπολογιστών: ZooKeeper - για διαμόρφωση/συντονισμό/καθορισμό υπηρεσιών
  • Περίπλοκος κύκλος / προσδιορισμός: Oozie - διαχείριση κύκλου, εξαρτήσεων, συνδυασμός
  • Εγκατάσταση, διαμόρφωση, διαχείριση Συστήματος, αναβάθμιση κλπ. (διαχειριστής συστήματος) : Ambari
  • Στο ραντεβού: Whirr

Ημέρα-2: Συνεδρίαση -3: Προϊσταμένη Ανάλυση στην Επιχειρηματική Νοηματική - 1: Βασικές Τεχνικές και Μηχανική Μάθηση βασισμένη στην Επιχειρηματική Νοηματική:

  • Εισαγωγή στη μηχανική μάθηση
  • Μάθηση τεχνικών κλασιφικατοποίησης
  • Βυσσινισμός Προβλέψεων - προετοιμασία εκπαιδευτικού αρχείου
  • Μηχανή υποστήριξης διανυσμάτων (Support Vector Machine)
  • KNN p-Tree Αλγόριθμος & κατακερματιστική ανάλυση
  • Ευρετήριο του Νευρωνικού Δικτύου (Neural Network)
  • Μεγάλα μεταβλητών πρόβλημα - Τυχαίο δάσος (Random Forest, RF)
  • Αυτοματοποίηση του προβλήματος - Πολλαπλό μοντέλο συγκεντρώσεων (Multi-model ensemble RF)
  • Αυτοματοποίηση μέσω του Soft10-M
  • Εργαλείο ανάλυσης κειμένου - Treeminer
  • Αξιοποίηση Μηχανικής Μάθησης (Agile Learning)
  • Μάθηση με βάση τους πράγματες (Agent-based Learning)
  • Κατανεμημένη μάθηση
  • Εισαγωγή σε Ανοιχτός Κώδικα εργαλεία για προϊσταμένη ανάλυση: R, Rapidminer, Mahut

Ημέρα-2: Συνεδρίαση -4: Εκοσύστημα Προϊσταμένης Ανάλυσης - 2: Κοινά προϊσταμένη αναλυτικά προβλήματα στην κυβερνήση

  • Εισοδική Ανάλυση
  • Οπτική Ανάλυση
  • Δομημένη προϊσταμένη ανάλυση
  • Μη δομημένη προϊσταμένη ανάλυση
  • Προφίλ χρηστών / πιθανή απάτη / εμπόρους
  • Σύστημα Ανακύκλωσης (Recommendation Engine)
  • Ανίχνευση μοτίβων
  • Ανίχνευση κανόνων / σεναρίων - αποτυχία, πιθανή απάτη, βελτιστοποίηση
  • Ανίχνευση βασικών αιτιών
  • Ανάλυση συναισθήματος (Sentiment Analysis)
  • Ανάλυση CRM
  • Ανάλυση Δικτύων
  • Ανάλυση κειμένου (Text Analytics)
  • Τεχνολογία εξ αποστάσεως αναθεώρηση (Technology-assisted Review)
  • Ανάλυση πιθανής απάτης
  • Πραγματικός Χρόνος Ανάλυση (Real Time Analytic)

Ημέρα-3: Συνεδρίαση -1 : Πραγματικός και Κλίμακα ανάλυση πάνω στο Hadoop

  • Γιατί τα κοινά αναλυτικά αλγόριθμοι αποτύχουν στο Hadoop/HDFS
  • Apache Hama - για κατανεμημένη υπολογιστική με πολυπλοκότητα
  • Apache SPARK - για ομάδα υπολογιστικής σε πραγματικό χρόνο
  • Εργαστήριο Γραφικών του CMU - Ανάλυση δικτύων με βάση γράφων και ασυγχρόνιες προσεγγίσεις
  • KNN p-Αλγόριθμος του Treeminer - προσέγγιση για μείωση του υλικού κόστους υπολογισμών

Ημέρα-3: Συνεδρίαση -2: Εργαλεία για την eDiscovery και το Ποινικό Δικαστικό

  • eDiscovery σε Μεγάλα Δεδομένα αντίθετα σε παλαιότερα δεδομένα - σύγκριση κόστους και επιδόσεων
  • Προϊσταμένη κώδικα και η υποστηριζόμενη τεχνολογία αναθεώρησης (TAR)
  • Ζωντανή δείξη μιας προϊόντος TAR (vMiner) για να καταλάβουμε το πώς λειτουργεί η TAR σε ταχύτερη ανακάλυψη
  • Γρήγορη δείξη μέσω HDFS - ροή πληροφοριών
  • NLP (Επεξεργασία Φυσικής Γλώσσας) - διάφορες τεχνικές και ανοιχτός κώδικα προϊόντων
  • eDiscovery σε ξένες γλώσσες - τεχνολογία επεξεργασίας ξένων γλωσσών

Ημέρα-3: Συνεδρίαση -3: Μεγάλα Δεδομένα BI για Κυβερνητική Ασφάλεια - Κατανόηση του 360-βαθμιαίου προσβλέποντα από τη γρήγορη συλλογή δεδομένων μέχρι την ανάκληση χρησιμοποίησης

  • Κατανόηση των βασικών περιβαλλόντων ασφάλειας - επίθεση, λανθασμένη διαμόρφωση ασφαλείας, άμυνα προσώπων
  • Το πλήξιμο υποδοχής / τεράστια δικτύωση / αντίδραση ETL για πραγματικό χρόνο ανάλυση
  • Προσδιοριστική vs προϊσταμένη - σύνθετες κανόνες βάση vs αυτομάτη ανίχνευση κανόνων χρησιμοποιώντας τα μεταδεδομένα

Ημέρα-3: Συνεδρίαση -4: Μεγάλα Δεδομένα στο USDA : Εφαρμογή στη Γεωργία

  • Εισαγωγή στο IoT (Internet of Things) για τη γεωργία - ανάλυση και ελέγχου με βάση αισθητήρες
  • Εισαγωγή στην δομή των δεδομένων της τελείωσης και εφαρμογή της γεωργίας
  • Ενσωμάτωση αισθητήρων και δεδομένων εικόνας για πλούσια έδαφος, συνασπισμός προτάσεων και ανάκληση
  • Ασφάλιση γεωργίας και Μεγάλα Δεδομένα
  • Πρόβλεψη απώλειας καλλιέργειας

Ημέρα-4: Συνεδρίαση -1: Προφύλαξη πιθανής απάτης BI από τα Μεγάλα Δεδομένα στην κυβέρνηση - Ανάλυση πιθανής απάτης

  • Βασική ταξινόμηση των τεχνικών ανάλυσης πιθανής απάτης - κανονικές εντολές vs προϊσταμένη Ανάλυση
  • Εξεταστική μάθηση (supervised) και υποδοχή της μάθησης (unsupervised) για ανίχνευση πρόβληματών πιθανής απάτης
  • Απάτη εμπορίου/υπερφόρτωση για έργα
  • Πιθανή απάτη Medicare και Medicaid - τεχνικές πρόβλεψης πιθανής απάτης στην επεξεργασία αποδοχών
  • Απάτη έξοδων ταξιδιουργικής δραστηριότητας
  • Πιθανή απάτη επιστροφών IRS
  • Θα δοθούν κρίσιμες μελέτες και ζωντανές δείξεις όπου θα είναι από πηγές δεδομένων.

Ημέρα-4: Συνεδρίαση -2: Ανάλυση κοινωνικών μέσων - Συγκέντρωση πληροφοριών και ανάλυση

  • API ETL για εξόδους δεδομένων κοινωνικών μέσων
  • Κείμενο, εικόνες, μεταδεδομένα και βίντεο
  • Ανάλυση συναισθήματος από δεδομένα κοινωνικών μέσων
  • Κάθερμα και άκαιρη φίλτρωση δεδομένων κοινωνικών μέσων
  • Πίνακας ελέγχου κοινωνικών μέσων για να συνδυάσετε διάφορα κοινωνικά μέσα
  • Αυτόματη προφίλ του χρήστη
  • Ζωντανή δείξη κάθε ανάλυσης θα εκδοθεί μέσω του Treeminer Tool.

Ημέρα-4: Συνεδρίαση -3: Ανάλυση Μεγάλων Δεδομένων στην επεξεργασία εικόνων και βίντεο

  • Τεχνικές αποθήκευσης εικόνων σε Μεγάλα Δεδομένα - λύσεις αποθήκευσης για δεδομένα που υπερβαίνουν την petabytes
  • LTFS και LTO
  • GPFS-LTFS (κλάδωση λύσης για δεδομένα εικόνων)
  • Βασικές προϋποθέσεις ανάλυσης εικόνων
  • Ανίχνευση αντικειμένων
  • Καταδοχή εικόνων
  • Απόδοση κίνησης
  • 3-D ανακατασκευή εικόνων

Ημέρα-4: Συνεδρίαση -4: Εφαρμογές Μεγάλων Δεδομένων στο NIH

  • Εκδιήγηση των αναδυόμενων περιοχών της βιο-πληροφορικής
  • Μεταγενομική και ζητήματα εξόδου στα Μεγάλα Δεδομένα
  • Προϊσταμένη ανάλυση Μεγάλων Δεδομένων για Pharmacogenomics, Metabolomics και Proteomics
  • Μεγάλα Δεδομένα στην κατώτερη επίσκεψη του Τεχνικού Γενομάτος
  • Εφαρμογή προϊσταμένων αναλυτικών μεγάλων δεδομένων στη Δημόσια Υγεία

Πίνακας ελέγχου Μεγάλων Δεδομένων για απλή πρόσβαση σε διάφορα δεδομένα και οθόνες:

  • Ενσωμάτωση υπαρχουσών εφαρμογών πλατφόρμας με πίνακα ελέγχου Μεγάλων Δεδομένων
  • Διαχείριση Μεγάλων Δεδομένων
  • Σπουδαιότητα πίνακα ελέγχου Μεγάλων Δεδομένων: Tableau και Pentaho
  • Χρήση για να υποστηρίξετε την παροχή υπηρεσιών με βάση τη θέση στη κυβέρνηση
  • Σύστημα και διαχείριση παρακολούθησης

Ημέρα-5: Συνεδρίαση -1: Πώς να δικαιολογήσετε την εφαρμογή Μεγάλων Δεδομένων BI μέσα σε μια οργάνωση:

  • Ορισμός ROI για την εφαρμογή Μεγάλων Δεδομένων
  • Σπουδαιότητες αποδοχής χρόνου για τη συλλογή και προσκόλληση δεδομένων - αύξηση της επιφάνειας παραγωγικότητας
  • Σπουδαιότητες οικονομίας από συστήματα λιπόμενων βάσεων δεδομένων
  • Οικονομία από υπηρεσίες με θέση που παρέχονται
  • Αποδοχή από την προφύλαξη πιθανής απάτης
  • Ενσωματωμένη μεθοδολογία υπολογιστή για την κατανόηση προσχώρησης / οφέλους από την εφαρμογή Μεγάλων Δεδομένων.

Ημέρα-5: Συνεδρίαση -2: Βήματα για την αντικατάσταση παλαιών συστημάτων δεδομένων με Μεγάλα Δεδομένα:

  • Κατανόηση του πρακτικού ροδοπέδης εφαρμογής Μεγάλων Δεδομένων
  • Τι σημαντικές πληροφορίες χρειάζονται πριν αρχιτεκτονική Μεγάλων Δεδομένων
  • Ποιοι είναι οι διαφορετικοί τρόποι προσδιορισμού όγκου, ταχύτητας, ποικιλίας και αξιοπιστίας δεδομένων
  • Πώς να εκτιμήσετε την αύξηση δεδομένων
  • Σπουδαιότητες

Ημέρα-5: Συνεδρίαση -4: Εξέταση των προϊόντων και των εταιρειών Μεγάλων Δεδομένων. Q/A συνεδρίαση:

  • Accenture
  • APTEAN (Πρώην CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Πρώην 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (Μέρος της EMC)

Απαιτήσεις

  • Βασική γνώση λειτουργίας επιχειρήσεων και συστημάτων δεδομένων της κυβέρνησης στον τομέα τους
  • Βασική κατανόηση SQL/Oracle ή σχετικών βάσεων δεδομένων
  • Βασική γνώση στατιστικών (σε επίπεδο φύλλου υπολογισμών)
 35 Ώρες

Αριθμός συμμετέχοντων


Τιμή ανά συμμετοχαστή

Σχόλια (1)

Εφεξής Μαθήματα

Σχετικές Κατηγορίες