Ευχαριστούμε που στάλθηκε η αποσαφήνισή σας! Ένα μέλος της ομάδου μας θα επικοινωνήσει μαζί σας σύντομα.
Ευχαριστούμε για την εκδήλωση κράτησης! Ένας από τους συνεργάτες μας θα επικοινωνήσει μαζί σας σύντομα.
Εξέλιξη Κομματιού
Κάθε συνεδρίαση διαρκεί 2 ώρες
Ημέρα-1: Συνεδρίαση -1: Γενική Περίληψη των Μεγάλων Δεδομένων και της Επιχειρηματικής Νοηματικής στην Κυβέρνηση
- Σπουδαιότητες από το NIH, DoE
- Ρυθμίσεις εξάρτησης των Μεγάλων Δεδομένων σε κυβερνητικές αρχές και πώς εξαρμόζουν τις μελλοντικές λειτουργίες τους γύρω από την Προϊσταμένη Ανάλυση των Μεγάλων Δεδομένων
- Πλήρης κλίμακα εφαρμογών στο DoD, NSA, IRS, USDA κ.α.
- Σύνδεση Μεγάλων Δεδομένων με Παλαιότερα Δεδομένα
- Βασική κατανόηση των υποστηριζόμενων τεχνολογιών στην Προϊσταμένη Ανάλυση
- Ενσωμάτωση Δεδομένων και Οπτική Παρουσίαση με πίνακες ελέγχου
- Διαχείριση Απάτης
- Παραγωγή Κανόνων Επιχειρήματος / Διακύβευση απάτης
- Ανίχνευση και προφίλ χρηστών διακυβέυσης
- Ανάλυση απόδοσης για την εφαρμογή Μεγάλων Δεδομένων
Ημέρα-1: Συνεδρίαση -2 : Εισαγωγή στα Μεγάλα Δεδομένα - 1
- Βασικές χαρακτηριστικές των Μεγάλων Δεδομένων- όγκος, ποικιλία, ταχύτητα και αξιοπιστία. MPP αρχιτεκτονική για τον όγκο.
- Βάσεις Δεδομένων - στατικό πρότυπο, αρχικά εξελίσσονται δεδομένα
- MPP Βάσεις Δεδομένων όπως Greenplum, Exadata, Teradata, Netezza, Vertica κ.α.
- Λύσεις με βάση Hadoop - χωρίς προϋπολογισμό στο πρότυπο δεδομένων.
- Τυπικό κύκλο : HDFS, MapReduce (χαλάζι), ανάκτηση από το HDFS
- Batch - ιδανική για αναλυτικές / μη διαδραστικές εφαρμογές
- Όγκος : CEP ρευστά δεδομένα
- Τυπικές επιλογές - CEP προϊόντα (π.χ. Infostreams, Apama, MarkLogic κ.α)
- Μείωση γρήγορη - Storm/S4
- NoSQL Βάσεις Δεδομένων - (στηλακτόπετρες και key-value): καλύτερες ως αναλυτική πρόσθετη βάση δεδομένων
Ημέρα-1 : Συνεδρίαση -3 : Εισαγωγή στα Μεγάλα Δεδομένα - 2
NoSQL λύσεις
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (Ιεραρχικό) - GT.m, Cache
- KV Store (Ταξινομημένο) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Object Database - ZopeDB, DB40, Shoal
- Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Ποικιλία δεδομένων: Εισαγωγή στην πρόβλημα της καθαρισμού δεδομένων στα Μεγάλα Δεδομένα
- RDBMS - στατική δομή / πρότυπο, δεν υποστηρίζει την εξελιστική και έρευνη μοιρανά.
- NoSQL - ημιδομημένη, αρκετή δομή για να αποθηκεύσουν δεδομένα χωρίς τελικό πρότυπο πριν από την αποθήκευση
- Προβλήματα καθαρισμού δεδομένων
Ημέρα-1 : Συνεδρίαση -4 : Εισαγωγή στα Μεγάλα Δεδομένα - 3: Hadoop
- Πότε να επιλέξουμε το Hadoop;
- ΔΟΜΗΜΕΝΑ - Η Επιχειρησιακή Βάση Δεδομένων μπορεί να αποθηκεύσει τεράστια δεδομένα (με κόστος) αλλά επιβάλλει πρότυπο (δεν είναι καλή για εξερευνητικές αναλύσεις)
- ΗΜΙΔΟΜΗΜΕΝΑ δεδομένα - δύσκολα με παραδοσιακές λύσεις (DW/DB)
- Αποθήκευση δεδομένων = ΤΕΡΛΙΜΗ επιχείρηση και στατική ακόμη μετά την υλοποίηση
- Για ποικιλία και όγκο δεδομένων, εξυπηρετητής σε απλά υλικά - HADOOP
- Απλό υλικό που χρειάζεται για τη δημιουργία Συστήματος Hadoop Cluster
Εισαγωγή στο Map Reduce /HDFS
- MapReduce - κατανεμημένη υπολογιστική σε πολλά διακομιστές
- HDFS - απόδοχη των δεδομένων επιτόπου για την υπολογιστική διαδικασία (με πολυπλοκότητα)
- Δεδομένα - μπορεί να είναι ανάδοχο / χωρίς πρότυπο (σε αντίθεση με το RDBMS)
- Υποχρεωτικό για τον διαμόρφωση των δεδομένων
- Προγραμματισμός MapReduce = εργασία με Java (πλεονεκτήματα / ανεφάρμοστες), χειροκίνητη φόρτωση δεδομένων στο HDFS
Ημέρα-2: Συνεδρίαση -1: Κύκλος Μεγάλων Δεδομένων: Επιλογή του κατάλληλου εργαλείου για Μεγάλα Δεδομένα - πότε να χρησιμοποιηθεί;
- Hadoop vs. άλλες λύσεις NoSQL
- Για διαδραστική, τυχαία πρόσβαση σε δεδομένα
- Hbase (στήλων-πορευμένη βάση δεδομένων) επι του Hadoop
- Τυχαία πρόσβαση σε δεδομένα αλλά με περιορισμούς (το πολύ 1 PB)
- Δεν είναι καλή για άμεση ανάλυση, καλή για καταγραφή, μέτρηση, χρονοσειρές
- Sqoop - Εισαγωγή από βάσεις δεδομένων σε Hive ή HDFS (JDBC/ODBC πρόσβαση)
- Flume - Ροή δεδομένων (π.χ. καταγραφή δεδομένων) σε HDFS
Ημέρα-2: Συνεδρίαση -2: Διαχείριση Μεγάλων Δεδομένων
- Κινουμένα τμήματα, προσαρμογή και αποτυχία υπολογιστών: ZooKeeper - για διαμόρφωση/συντονισμό/καθορισμό υπηρεσιών
- Περίπλοκος κύκλος / προσδιορισμός: Oozie - διαχείριση κύκλου, εξαρτήσεων, συνδυασμός
- Εγκατάσταση, διαμόρφωση, διαχείριση Συστήματος, αναβάθμιση κλπ. (διαχειριστής συστήματος) : Ambari
- Στο ραντεβού: Whirr
Ημέρα-2: Συνεδρίαση -3: Προϊσταμένη Ανάλυση στην Επιχειρηματική Νοηματική - 1: Βασικές Τεχνικές και Μηχανική Μάθηση βασισμένη στην Επιχειρηματική Νοηματική:
- Εισαγωγή στη μηχανική μάθηση
- Μάθηση τεχνικών κλασιφικατοποίησης
- Βυσσινισμός Προβλέψεων - προετοιμασία εκπαιδευτικού αρχείου
- Μηχανή υποστήριξης διανυσμάτων (Support Vector Machine)
- KNN p-Tree Αλγόριθμος & κατακερματιστική ανάλυση
- Ευρετήριο του Νευρωνικού Δικτύου (Neural Network)
- Μεγάλα μεταβλητών πρόβλημα - Τυχαίο δάσος (Random Forest, RF)
- Αυτοματοποίηση του προβλήματος - Πολλαπλό μοντέλο συγκεντρώσεων (Multi-model ensemble RF)
- Αυτοματοποίηση μέσω του Soft10-M
- Εργαλείο ανάλυσης κειμένου - Treeminer
- Αξιοποίηση Μηχανικής Μάθησης (Agile Learning)
- Μάθηση με βάση τους πράγματες (Agent-based Learning)
- Κατανεμημένη μάθηση
- Εισαγωγή σε Ανοιχτός Κώδικα εργαλεία για προϊσταμένη ανάλυση: R, Rapidminer, Mahut
Ημέρα-2: Συνεδρίαση -4: Εκοσύστημα Προϊσταμένης Ανάλυσης - 2: Κοινά προϊσταμένη αναλυτικά προβλήματα στην κυβερνήση
- Εισοδική Ανάλυση
- Οπτική Ανάλυση
- Δομημένη προϊσταμένη ανάλυση
- Μη δομημένη προϊσταμένη ανάλυση
- Προφίλ χρηστών / πιθανή απάτη / εμπόρους
- Σύστημα Ανακύκλωσης (Recommendation Engine)
- Ανίχνευση μοτίβων
- Ανίχνευση κανόνων / σεναρίων - αποτυχία, πιθανή απάτη, βελτιστοποίηση
- Ανίχνευση βασικών αιτιών
- Ανάλυση συναισθήματος (Sentiment Analysis)
- Ανάλυση CRM
- Ανάλυση Δικτύων
- Ανάλυση κειμένου (Text Analytics)
- Τεχνολογία εξ αποστάσεως αναθεώρηση (Technology-assisted Review)
- Ανάλυση πιθανής απάτης
- Πραγματικός Χρόνος Ανάλυση (Real Time Analytic)
Ημέρα-3: Συνεδρίαση -1 : Πραγματικός και Κλίμακα ανάλυση πάνω στο Hadoop
- Γιατί τα κοινά αναλυτικά αλγόριθμοι αποτύχουν στο Hadoop/HDFS
- Apache Hama - για κατανεμημένη υπολογιστική με πολυπλοκότητα
- Apache SPARK - για ομάδα υπολογιστικής σε πραγματικό χρόνο
- Εργαστήριο Γραφικών του CMU - Ανάλυση δικτύων με βάση γράφων και ασυγχρόνιες προσεγγίσεις
- KNN p-Αλγόριθμος του Treeminer - προσέγγιση για μείωση του υλικού κόστους υπολογισμών
Ημέρα-3: Συνεδρίαση -2: Εργαλεία για την eDiscovery και το Ποινικό Δικαστικό
- eDiscovery σε Μεγάλα Δεδομένα αντίθετα σε παλαιότερα δεδομένα - σύγκριση κόστους και επιδόσεων
- Προϊσταμένη κώδικα και η υποστηριζόμενη τεχνολογία αναθεώρησης (TAR)
- Ζωντανή δείξη μιας προϊόντος TAR (vMiner) για να καταλάβουμε το πώς λειτουργεί η TAR σε ταχύτερη ανακάλυψη
- Γρήγορη δείξη μέσω HDFS - ροή πληροφοριών
- NLP (Επεξεργασία Φυσικής Γλώσσας) - διάφορες τεχνικές και ανοιχτός κώδικα προϊόντων
- eDiscovery σε ξένες γλώσσες - τεχνολογία επεξεργασίας ξένων γλωσσών
Ημέρα-3: Συνεδρίαση -3: Μεγάλα Δεδομένα BI για Κυβερνητική Ασφάλεια - Κατανόηση του 360-βαθμιαίου προσβλέποντα από τη γρήγορη συλλογή δεδομένων μέχρι την ανάκληση χρησιμοποίησης
- Κατανόηση των βασικών περιβαλλόντων ασφάλειας - επίθεση, λανθασμένη διαμόρφωση ασφαλείας, άμυνα προσώπων
- Το πλήξιμο υποδοχής / τεράστια δικτύωση / αντίδραση ETL για πραγματικό χρόνο ανάλυση
- Προσδιοριστική vs προϊσταμένη - σύνθετες κανόνες βάση vs αυτομάτη ανίχνευση κανόνων χρησιμοποιώντας τα μεταδεδομένα
Ημέρα-3: Συνεδρίαση -4: Μεγάλα Δεδομένα στο USDA : Εφαρμογή στη Γεωργία
- Εισαγωγή στο IoT (Internet of Things) για τη γεωργία - ανάλυση και ελέγχου με βάση αισθητήρες
- Εισαγωγή στην δομή των δεδομένων της τελείωσης και εφαρμογή της γεωργίας
- Ενσωμάτωση αισθητήρων και δεδομένων εικόνας για πλούσια έδαφος, συνασπισμός προτάσεων και ανάκληση
- Ασφάλιση γεωργίας και Μεγάλα Δεδομένα
- Πρόβλεψη απώλειας καλλιέργειας
Ημέρα-4: Συνεδρίαση -1: Προφύλαξη πιθανής απάτης BI από τα Μεγάλα Δεδομένα στην κυβέρνηση - Ανάλυση πιθανής απάτης
- Βασική ταξινόμηση των τεχνικών ανάλυσης πιθανής απάτης - κανονικές εντολές vs προϊσταμένη Ανάλυση
- Εξεταστική μάθηση (supervised) και υποδοχή της μάθησης (unsupervised) για ανίχνευση πρόβληματών πιθανής απάτης
- Απάτη εμπορίου/υπερφόρτωση για έργα
- Πιθανή απάτη Medicare και Medicaid - τεχνικές πρόβλεψης πιθανής απάτης στην επεξεργασία αποδοχών
- Απάτη έξοδων ταξιδιουργικής δραστηριότητας
- Πιθανή απάτη επιστροφών IRS
- Θα δοθούν κρίσιμες μελέτες και ζωντανές δείξεις όπου θα είναι από πηγές δεδομένων.
Ημέρα-4: Συνεδρίαση -2: Ανάλυση κοινωνικών μέσων - Συγκέντρωση πληροφοριών και ανάλυση
- API ETL για εξόδους δεδομένων κοινωνικών μέσων
- Κείμενο, εικόνες, μεταδεδομένα και βίντεο
- Ανάλυση συναισθήματος από δεδομένα κοινωνικών μέσων
- Κάθερμα και άκαιρη φίλτρωση δεδομένων κοινωνικών μέσων
- Πίνακας ελέγχου κοινωνικών μέσων για να συνδυάσετε διάφορα κοινωνικά μέσα
- Αυτόματη προφίλ του χρήστη
- Ζωντανή δείξη κάθε ανάλυσης θα εκδοθεί μέσω του Treeminer Tool.
Ημέρα-4: Συνεδρίαση -3: Ανάλυση Μεγάλων Δεδομένων στην επεξεργασία εικόνων και βίντεο
- Τεχνικές αποθήκευσης εικόνων σε Μεγάλα Δεδομένα - λύσεις αποθήκευσης για δεδομένα που υπερβαίνουν την petabytes
- LTFS και LTO
- GPFS-LTFS (κλάδωση λύσης για δεδομένα εικόνων)
- Βασικές προϋποθέσεις ανάλυσης εικόνων
- Ανίχνευση αντικειμένων
- Καταδοχή εικόνων
- Απόδοση κίνησης
- 3-D ανακατασκευή εικόνων
Ημέρα-4: Συνεδρίαση -4: Εφαρμογές Μεγάλων Δεδομένων στο NIH
- Εκδιήγηση των αναδυόμενων περιοχών της βιο-πληροφορικής
- Μεταγενομική και ζητήματα εξόδου στα Μεγάλα Δεδομένα
- Προϊσταμένη ανάλυση Μεγάλων Δεδομένων για Pharmacogenomics, Metabolomics και Proteomics
- Μεγάλα Δεδομένα στην κατώτερη επίσκεψη του Τεχνικού Γενομάτος
- Εφαρμογή προϊσταμένων αναλυτικών μεγάλων δεδομένων στη Δημόσια Υγεία
Πίνακας ελέγχου Μεγάλων Δεδομένων για απλή πρόσβαση σε διάφορα δεδομένα και οθόνες:
- Ενσωμάτωση υπαρχουσών εφαρμογών πλατφόρμας με πίνακα ελέγχου Μεγάλων Δεδομένων
- Διαχείριση Μεγάλων Δεδομένων
- Σπουδαιότητα πίνακα ελέγχου Μεγάλων Δεδομένων: Tableau και Pentaho
- Χρήση για να υποστηρίξετε την παροχή υπηρεσιών με βάση τη θέση στη κυβέρνηση
- Σύστημα και διαχείριση παρακολούθησης
Ημέρα-5: Συνεδρίαση -1: Πώς να δικαιολογήσετε την εφαρμογή Μεγάλων Δεδομένων BI μέσα σε μια οργάνωση:
- Ορισμός ROI για την εφαρμογή Μεγάλων Δεδομένων
- Σπουδαιότητες αποδοχής χρόνου για τη συλλογή και προσκόλληση δεδομένων - αύξηση της επιφάνειας παραγωγικότητας
- Σπουδαιότητες οικονομίας από συστήματα λιπόμενων βάσεων δεδομένων
- Οικονομία από υπηρεσίες με θέση που παρέχονται
- Αποδοχή από την προφύλαξη πιθανής απάτης
- Ενσωματωμένη μεθοδολογία υπολογιστή για την κατανόηση προσχώρησης / οφέλους από την εφαρμογή Μεγάλων Δεδομένων.
Ημέρα-5: Συνεδρίαση -2: Βήματα για την αντικατάσταση παλαιών συστημάτων δεδομένων με Μεγάλα Δεδομένα:
- Κατανόηση του πρακτικού ροδοπέδης εφαρμογής Μεγάλων Δεδομένων
- Τι σημαντικές πληροφορίες χρειάζονται πριν αρχιτεκτονική Μεγάλων Δεδομένων
- Ποιοι είναι οι διαφορετικοί τρόποι προσδιορισμού όγκου, ταχύτητας, ποικιλίας και αξιοπιστίας δεδομένων
- Πώς να εκτιμήσετε την αύξηση δεδομένων
- Σπουδαιότητες
Ημέρα-5: Συνεδρίαση -4: Εξέταση των προϊόντων και των εταιρειών Μεγάλων Δεδομένων. Q/A συνεδρίαση:
- Accenture
- APTEAN (Πρώην CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Πρώην 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Μέρος της EMC)
Απαιτήσεις
- Βασική γνώση λειτουργίας επιχειρήσεων και συστημάτων δεδομένων της κυβέρνησης στον τομέα τους
- Βασική κατανόηση SQL/Oracle ή σχετικών βάσεων δεδομένων
- Βασική γνώση στατιστικών (σε επίπεδο φύλλου υπολογισμών)
35 Ώρες
Σχόλια (1)
Η ικανότητα του εκπαιδευτή να στοιχειοδοτήσει το μάθημα σύμφωνα με τις ανάγκες της οργάνωσης και όχι απλώς να παρέχει το μάθημα για λόγους παράδοσής του.
Masilonyane - Revenue Services Lesotho
Κομμάτι - Big Data Business Intelligence for Govt. Agencies
Μηχανική Μετάφραση