Εξέλιξη Κομματιού

Κάθε συνεδρία διαρκεί 2 ώρες

Ημέρα-1: Συνεδρία -1: Γενική επιχειρηματική αξιολόγηση των λόγων για την Επιχειρηματική Νοηματική (Business Intelligence) με Big Data στις κυβερνητικές υπηρεσίες

  • Εξελικτικές ιστορίες από τα NIH, DoE
  • Ρυθμός προσαρμογής Big Data σε κυβερνητικά όργανα και πώς συμβαδίζουν τις μελλοντικές λειτουργίες τους γύρω από Big Data Predictive Analytics
  • Ευρύ πεδίο εφαρμογής στη Διάσταση Άμυνας, NSA, IRS, USDA κλπ.
  • Σύνδεση Big Data με παλαιότερα δεδομένα
  • Βασική κατανόηση των τεχνολογιών που είναι βάση για την προϊστορική ανάλυση
  • Ενσωμάτωση δεδομένων και οπτικοποίηση dashboard
  • Διαχείριση παρανομιών
  • Παραγωγή επιχειρηματικών κανόνων / ανίχνευσης παρανομίας
  • Ανίχνευση και συμβολογράφηση απειλών
  • Κόστος-ωφέλεια για την εφαρμογή Big Data

Ημέρα-1: Συνεδρία -2 : Εισαγωγή στο Big Data-1

  • Βασικά χαρακτηριστικά του Big Data: πλήθος, ποικιλία, ταχύτητα και αξιοπιστία. MPP architecture για μεγάλο πλήθος.
  • Data Warehouses – στατικό schema, βραδύ αναπτυσσόμενο dataset
  • MPP Databases όπως Greenplum, Exadata, Teradata, Netezza, Vertica κλπ.
  • Hadoop Based Solutions – χωρίς προϋποθέσεις για την δομή του dataset.
  • Τυπικό μοτίβο: HDFS, MapReduce (crunch), ανάκτηση από το HDFS
  • Batch – κατάλληλο για εξελικτική/μη διαδραστική λειτουργία.
  • Volume: CEP streaming data
  • Τυπικές επιλογές – προϊόντα CEP (π.χ. Infostreams, Apama, MarkLogic κλπ.)
  • Λιγότερο παραγωγικά έτοιμα – Storm/S4
  • NoSQL Databases – (σημείων-και key-value): καλύτερα ως επιπλέον αναλυτικό στοιχείο για data warehouse/database

Ημέρα-1 : Συνεδρία -3 : Εισαγωγή στο Big Data-2

NoSQL λύσεις

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (Ιεραρχικό) - GT.m, Cache
  • KV Store (Ταξινομημένο) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Object Database - ZopeDB, DB40, Shoal
  • Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Ποικιλία δεδομένων: Εισαγωγή στο πρόβλημα καθαρισμού των δεδομένων στο Big Data

  • RDBMS – στατική δομή/schema, δεν προάγει αξιοπιστό και εξερευνητικό περιβάλλον.
  • NoSQL – ημιδομημένα, αρκετή δομή για την αποθήκευση δεδομένων χωρίς ακριβή schema πριν από την αποθήκευση
  • Πρόβλημα καθαρισμού δεδομένων

Ημέρα-1 : Συνεδρία -4 : Εισαγωγή στο Big Data-3: Hadoop

  • Πότε να επιλεχθεί το Hadoop;
  • ΣΤΡΟΥΘΩΜΕΝΑ - Επιχειρηματικά data warehouses/databases μπορούν να αποθηκεύουν τεράστια δεδομένα (με κόστος) αλλά επιβάλλουν δομή (κακή για εξερευνητική λειτουργία)
  • ΗΜΙΣΤΡΟΥΘΩΜΕΝΑ δεδομένα – δύσκολα με παραδοσιακά λύσεις (DW/DB)
  • Αποθήκευση δεδομένων = τεράστιος κόπος και στατικό ακόμα μετά την εφαρμογή
  • Για ποικιλία και πλήθος δεδομένων, συμπυκνωμένα σε απλά υπολογιστικά - HADOOP
  • Απλό hardware που απαιτείται για τη δημιουργία cluster Hadoop

Εισαγωγή στο Map Reduce /HDFS

  • MapReduce – κατανεμημένη υπολογιστική πάνω από πολλά διακομιστές
  • HDFS – καθιστά τα δεδομένα εφαρμογή ήχου υπολογιστικού προσδιορισμού (με αναδρομικότητα)
  • Δεδομένα – μπορούν να είναι άσχημα/χωρίς σχήμα (υπερβαίνοντα RDBMS)
  • Υποχρεώνει τον διαμόρφωση υλοποίηση να κατανοήσει τα δεδομένα
  • Προγραμματισμός MapReduce = εργασία με Java (πλεονεκτήματα/νεφέλες), χειροκίνητη ανάκτηση δεδομένων στο HDFS

Ημέρα-2: Συνεδρία -1: Ο οικοσύστημα Big Data-Κατασκευή Big Data ETL: σύμπαν των εργαλείων Big Data-ποιο να χρησιμοποιήσετε και πότε;

  • Hadoop vs. άλλες λύσεις NoSQL
  • Για διαδραστική, τυχαία πρόσβαση σε δεδομένα
  • Hbase (στήλων-οριζόντιος database) πάνω από Hadoop
  • Τυχαία πρόσβαση σε δεδομένα με περιορισμούς (max 1 PB)
  • Κακή για εξ άκρου ανάλυση, καλή για καταγραφή, μέτρηση, χρονικές σειρές
  • Sqoop - Εισαγωγή από βάσεις δεδομένων σε Hive ή HDFS (JDBC/ODBC access)
  • Flume – ροή δεδομένων (π.χ. καταγραφή) σε HDFS

Ημέρα-2: Συνεδρία -2: Σύστημα Διαχείρισης Big Data

  • Κινούμενα τμήματα, υπολογιστικοί κόμβοι start/fail: ZooKeeper - Για ρυθμιστικές/συντονιστικές/ονομαστικές υπηρεσίες
  • Περίπλοκες pipeline/workflow: Oozie – διαχείριση workflow, εξάρτηση, συνδυασμός
  • Διαθέσιμη, ρύθμιση, κλάστερ διαχείριση, upgrade etc (sys admin): Ambari
  • Στο cloud: Whirr

Ημέρα-2: Συνεδρία -3: Προϊστορική ανάλυση στο Επιχειρηματικό Νοηματικό -1: Βασικές τεχνικές και μηχανική βάση για Business Intelligence :

  • Εισαγωγή στο μηχανικό μάθημα
  • Μάθηση τεχνικών κλασιφικατορίας
  • Bayesian Prediction - εκπαιδεύουν αρχείο διδασκαλίας
  • Support Vector Machine
  • KNN p-Tree Algebra & οριζόντια εξόρυξη
  • Νευρωνική δίκτυο
  • Πρόβλημα μεγάλου αριθμού μεταβλητών Big Data -Random forest (RF)
  • Πρόβλημα αυτόματης διαχείρισης στο Big Data – Multi-model ensemble RF
  • Αυτόματη διαχείριση μέσω Soft10-M
  • Εργαλείο κειμενολογικής ανάλυσης - Treeminer
  • Αξιοπιστό μάθηση
  • Μάθηση βασισμένο σε πράκτορες
  • Κατανεμημένη ανάλυση
  • Εισαγωγή σε οπέν-σόρς εργαλεία για προϊστορική ανάλυση: R, Rapidminer, Mahut

Ημέρα-2: Συνεδρία -4: Εξυφαίνουσα προϊστορική ανάλυση -2: Κοινά προϊστορικά προβλήματα στις κυβερνητικές υπηρεσίες

  • Εξυφαίνουσα ανάλυση
  • Οπτική ανάλυση
  • Δομημένη προϊστορική ανάλυση
  • Αδόμημενη προϊστορική ανάλυση
  • Προφίλ απειλών/παρανομιών/προμηθευτών
  • Χαρτογραφικός κινητήρας
  • Ανίχνευση μοτίβων
  • Ανίχνευση κανόνων/σενάριων – αποτυχίες, παρανομίες, βελτιώσεις
  • Ανίχνευση ριζωδών αιτιών
  • Ανάλυση συμπάθειας
  • Ανάλυση CRM
  • Υποδοχή ανάλυσης
  • Κειμενολογική Ανάλυση
  • Τεχνολογία εξυφαίνουσα αναθεώρηση
  • Ανάλυση παρανομιών
  • Πραγματική χρόνου Ανάλυση

Ημέρα-3 : Σύνεδρο -1: Πραγματική και μαζική ανάλυση στο Hadoop

  • Γιατί οι κοινές αλγόριθμοι ανάλυσης αποτυγχάνουν στο Hadoop/HDFS
  • Apache Hama - για πολύπλευρη κατανεμημένη υπολογιστική
  • Apache SPARK - για κλάστερ υπολογιστική πραγματικού χρόνου ανάλυσης
  • CMU Graphics Lab2 - Μέθοδος γραφικής α-συγχρονισμένης κατανεμημένης υπολογιστικής
  • KNN p-Algebra based approach from Treeminer για μείωση του κόστους λειτουργίας του προσώπου

Ημέρα-3: Σύνεδρο -2: Εργαλεία για eDiscovery και αποκάλυψη

  • eDiscovery στο Big Data vs. Legacy data – σύγκριση έξοδων και επιδόσεων
  • Προϊστορική κωδικοποίηση και τεχνολογία βοηθούμενη αναθεώρηση (TAR)
  • Ζωντανή δείξη μιας προϊόντος TAR (vMiner) για να καταλάβουμε πώς λειτουργεί η TAR για ταχύτερη αναθεώρηση
  • Ταχύτερο δείκτυμα μέσω HDFS – χρόνος πληροφοριών
  • NLP ή φυσική επεξεργασία γλώσσας - διάφορες τεχνικές και οπέν-σόρς προϊόντα
  • eDiscovery σε ξένες γλώσσες – τεχνολογία επεξεργασίας ξένων γλωσσών

Ημέρα-3 : Σύνεδρο 3: Επιχειρηματικό Νοηματικό Big Data για κυβερνητική ασφάλεια –Κατανόηση 360 βαθμών προσβολής ταχύτητας συλλογής δεδομένων μέχρι την ανάκτηση απειλών

  • Κατανόηση βασικών γνωστικών ασφαλούς αναλυτική - επίθεση έγχυρου, κακοδιατύπωση ασφάλειας, host defenses
  • Δικτύωση υποδομή / μεγάλη παράβλεψη δεδομένων / Αντίδραση ETL για πραγματικός χρόνος ανάλυση
  • Προστακτική vs προϊστορική – σταθεροί κανόνες βάση vs αυτόματη ανίχνευση απειλών από metadata

Ημέρα-3: Σύνεδρο 4: Big Data στο USDA : Εφαρμογή στη γεωργία

  • Εισαγωγή στο IoT (Internet of Things) για τη γεωργία - επίβλεψη δεδομένων και έλεγχο βάσης
  • Εισαγωγή στην διαφωτική φωτογράφηση και εφαρμογή της στη γεωργία
  • Συνένωση αισθητήρων και δεδομένων φωτογράφησης για την θλιψιότητα του γηπεδού, συστήματα πρότυπων καλλιέργειας και πρόβλεψη
  • Ασφάλεια γεωργίας και Big Data
  • Πρόβλεψη απώλειας καλλιέργειας

Ημέρα-4 : Σύνεδρο -1: Πρόληψη παρανομίας BI από το Big Data στις κυβερνητικές υπηρεσίες-Ανάλυση παρανομίας:

  • Βασική ταξινόμηση Ανάλυσης παρανομίας - κατά βάση κανόνων vs. προϊστορική ανάλυση
  • Επεξεργαστικές vs μη επεξεργαστικές Μηχανικές Τεχνολογίες για την ανίχνευση τύπων παρανομίας
  • Παρανομία και υπερτίμηση εργασιών προμηθευτών
  • Παρανομία Medicare και Medicaid - τεχνικές ανίχνευσης παρανομίας για επεξεργασία αιτήματων
  • Παρανομίες ταξίδιος οικονομιών
  • Ηρεμικές παρανομίες IRS
  • Θα δοθούν εξελικτικές ιστορίες και ζωντανή δείξη όπουδήποτε υπάρχουν δεδομένα.

Ημέρα-4 : Σύνεδρο -2: Κοινωνική Δικτύωση Ανάλυση - Συλλογή και ανάλυση νοημάτων

  • Big Data ETL API για σύρση δεδομένων κοινωνικής δικτύωσης
  • Κείμενο, εικόνες, metadata και βίντεο
  • Συναισθηματική ανάλυση από δεδομένα κοινωνικής δικτύωσης
  • Καταστροφική και μη-καταστροφική φίλτρωση των δεδομένων κοινωνικής δικτύωσης
  • Κοινωνικό Dashboard για συνδυασμό ποικίλων μέσων κοινωνικής δικτύωσης
  • Αυτόματη προφίλ αποδότησης σε λογαριασμούς κοινωνικής δικτύωσης
  • Θα δοθεί ζωντανή δείξη κάθε ανάλυση μέσω εργαλείου Treeminer.

Ημέρα-4 : Σύνεδρο -3: Big Data Analytic στην επεξεργασία εικόνων και βίντεο

  • Τεχνικές αποθήκευσης εικόνων σε Big Data - λύσεις αποθήκευσης για δεδομένα υπέρ των πεταβυτών
  • LTFS και LTO
  • GPFS-LTFS (Στρώμα στρώματος αποθήκευσης για Big image data)
  • Βασικές ενότητες εικονολογίας
  • Αναγνώριση αντικειμένων
  • Κλάδωση εικόνων
  • Σχολή κίνησης
  • 3-D αποκατάσταση εικόνων

Ημέρα-4: Σύνεδρο -4: Εφαρμογές Big Data στο NIH:

  • Νέες περιοχές Βιο-πληροφορικής
  • Meta-genomics και προβλήματα εξόρυξης Big Data
  • Προϊστορική ανάλυση Big Data για Pharmacogenomics, Metabolomics και Proteomics
  • Big Data στην κλιμακωτή διαδικασία Genomics
  • Εφαρμογές Big data προϊστορικής ανάλυσης στη Δημόσια Υγεία

Big Data Dashboard για την εύκολη πρόσβαση και έμφανη παρουσίαση διάφορων δεδομένων:

  • Ενσωμάτωση υπάρχων εφαρμογών πλατφόρμας με Big Data Dashboard
  • Διαχείριση του Big Data
  • Εξελικτική ιστορία Big Data Dashboard: Tableau και Pentaho
  • Χρήση εφαρμογών Big data για να προωθήσουν την υπηρεσία βασισμένη σε τοποθεσία
  • Σύστημα και διαχείριση παρακολούθησης

Ημέρα-5 : Σύνεδρο -1: Πώς να γιορτάζετε την εφαρμογή Big Data BI σε μία οργάνωση:

  • Ορισμός ROI (Return on Investment) για την εφαρμογή Big Data
  • Εξελικτικές ιστορίες συντηρητικού χρόνου αναλυτών για τη συλλογή και προετοιμασία δεδομένων - αύξηση της απόδοσης
  • Εξελικτικές ιστορίες περιουσιακών κέρδων μέσω συντηρητικού κόστους λεγόμενων βάσεων δεδομένων
  • Περιουσιακά κέρδη από την υπηρεσία βασισμένη σε τοποθεσία
  • Συντήρηση από παρανομία
  • Ενδυναμωμένη κλικ σε εξαιρετικό ηλεκτρονικό φύλλο υπολογισμών για την προσέγγιση αποδοχής αποδοχής έξοδων και περιουσιακών κέρδων/συντήρησης χάρη στην εφαρμογή Big Data.

Ημέρα-5 : Σύνεδρο -2: Βήμα προς βήμα διαδικασία για την αντικατάσταση συστήματος λεγόμενων δεδομένων με Big Data System:

  • Κατανόηση πρακτικής ρύθμισης προχώρησης στο Big Data
  • Τι είναι τα βασικά πληροφορίες απαιτούμενες πριν ρυθμίσεις της εφαρμογής Big Data
  • Πώς να καταλογίζετε δομή, ταχύτητα, ποικιλία και αξιοπιστία των δεδομένων
  • Πώς να εκτιμήσετε την αύξηση δεδομένων
  • Εξελικτικές ιστορίες

Ημέρα-5: Σύνεδρο 4: Εξέταση των παρόχων Big Data και εξέταση των προϊόντων. Επικοινωνία/Ερώτησες:

  • Accenture
  • APTEAN (Πρώην CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Πρώην 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (Τμήμα του EMC)

Απαιτήσεις

  • Βασικές γνώσεις λειτουργίας επιχειρήσεων και συστημάτων δεδομένων στο Govt. στον τομέα τους
  • Βασική κατανόηση της SQL/Oracle ή της σχεσιακής βάσης δεδομένων
  • Βασική κατανόηση του Statistics (σε επίπεδο υπολογιστικού φύλλου)
 35 Ώρες

Αριθμός συμμετέχοντων


Τιμή ανά συμμετοχαστή

Σχόλια (1)

Εφεξής Μαθήματα

Σχετικές Κατηγορίες