Course Outline

Κάθε συνεδρία είναι 2 ώρες

Day-1: Session -1: Business Overview of Why Big Data Business Intelligence στο Govt.

    Μελέτες περίπτωσης από το NIH, DoE Big Data adaptation rate in Govt. Αντιπροσωπείες και πώς ευθυγραμμίζουν τη μελλοντική τους λειτουργία γύρω από Big Data Predictive Analytics Περιοχή εφαρμογής ευρείας κλίμακας στο DoD, NSA, IRS, USDA κ.λπ. Διασύνδεση Big Data με δεδομένα παλαιού τύπου Βασική κατανόηση των τεχνολογιών ενεργοποίησης στην προγνωστική ανάλυση Ενσωμάτωση δεδομένων και οπτικοποίηση πίνακα ελέγχου Απάτη διαχείριση Επιχειρηματικός κανόνας/ Δημιουργία ανίχνευσης απάτης Ανίχνευση απειλών και δημιουργία προφίλ Ανάλυση κόστους-οφέλους για την υλοποίηση Big Data

Day-1: Session-2 : Εισαγωγή του Big Data-1

    Κύρια χαρακτηριστικά των Big Data-όγκος, ποικιλία, ταχύτητα και ακρίβεια. Αρχιτεκτονική MPP για όγκο. Αποθήκες δεδομένων – στατικό σχήμα, αργά εξελισσόμενες βάσεις δεδομένων MPP δεδομένων όπως Greenplum, Exadata, Teradata, Netezza, Vertica κ.λπ. Λύσεις που βασίζονται στο Hadoop – δεν υπάρχουν προϋποθέσεις για τη δομή του συνόλου δεδομένων. Τυπικό μοτίβο : HDFS, MapReduce (crch), ανάκτηση από HDFS Batch κατάλληλο για αναλυτικό/μη αλληλεπιδραστικό όγκο: CEP ροή δεδομένων Τυπικές επιλογές – προϊόντα CEP (π.χ. Infostreams, Apama, MarkLogic κ.λπ.) Λιγότερη έτοιμη παραγωγή – Storm/S4 NoSQL Databass – (στήλη και κλειδί-τιμή): Ταιριάζει καλύτερα ως αναλυτικό συμπλήρωμα σε αποθήκη δεδομένων/βάση δεδομένων

Ημέρα-1 : Συνεδρία -3 : Εισαγωγή στο Big Data-2

ΌχιSQL λύσεις

    KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB) KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB KV Store (Ιεραρχικό) - GT.m, Cache KV Store (TokyoTyr, Orderant) Lightcloud, NMDB, Luxio, MemcacheDB, Actord KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua Tuple Store - Gigaspaces, Coord, Apache River Object DatabaseB,Dlouch,Douch,DouchD0 , Couchbase, MongoDB, Jackrabbit, XML-Βάσεις δεδομένων, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Ποικιλίες Δεδομένων: Εισαγωγή στο τεύχος Data Cleaning στα Μεγάλα Δεδομένα

    RDBMS – στατική δομή/σχήμα, δεν προωθεί ευέλικτο, εξερευνητικό περιβάλλον. ΌχιSQL – ημιδομημένη, αρκετή δομή για αποθήκευση δεδομένων χωρίς ακριβές σχήμα πριν από την αποθήκευση δεδομένων Ζητήματα καθαρισμού δεδομένων

Day-1 : Session-4 : Big Data Introduction-3 : Hadoop

    Πότε να επιλέξετε Hadoop; ΔΟΜΗΜΕΝΑ - Οι αποθήκες/βάσεις δεδομένων των επιχειρήσεων μπορούν να αποθηκεύσουν τεράστια δεδομένα (με κόστος), αλλά επιβάλλουν δομή (δεν είναι καλή για ενεργή εξερεύνηση) ΗΜΙΔΟΜΗΜΕΝΑ δεδομένα – δύσκολα με παραδοσιακές λύσεις (DW/DB) Δεδομένα αποθήκευσης = ΤΕΡΑΣΤΙΑ προσπάθεια και στατική ακόμα και μετά υλοποίηση Για ποικιλία και όγκο δεδομένων, κομμένα στο υλικό εμπορευμάτων – το HADOOP Commodity H/W απαιτείται για τη δημιουργία ενός Hadoop Cluster

Εισαγωγή στο Map Reduce /HDFS

    MapReduce – διανομή υπολογιστών σε πολλούς διακομιστές HDFS – καθιστούν τα δεδομένα διαθέσιμα τοπικά για τη διαδικασία υπολογισμού (με πλεονασμό) Δεδομένα – μπορεί να είναι αδόμητα/χωρίς σχήματα (σε αντίθεση με το RDBMS) Ευθύνη προγραμματιστή να κατανοήσει τα δεδομένα Programming MapReduce = εργασία με Java ( πλεονεκτήματα/μειονεκτήματα), μη αυτόματη φόρτωση δεδομένων στο HDFS

Day-2: Session-1: Big Data Ecosystem-Building Big Data ETL: σύμπαν των Big Data εργαλείων-ποιο να χρησιμοποιήσετε και πότε;

    Hadoop εναντίον άλλων λύσεων NoSQL Για διαδραστική, τυχαία πρόσβαση σε δεδομένα Hbase (βάση δεδομένων προσανατολισμένη στη στήλη) πάνω από Hadoop Τυχαία πρόσβαση στα δεδομένα αλλά επιβάλλονται περιορισμοί (μέγιστο 1 PB) Δεν είναι καλό για ad-hoc αναλυτικά στοιχεία, καλό για καταγραφή, καταμέτρηση, χρονοσειρές Sqoop - Εισαγωγή από βάσεις δεδομένων σε Hive ή HDFS (πρόσβαση JDBC/ODBC) Flume – Ροή δεδομένων (π.χ. δεδομένα καταγραφής) σε HDFS

Day-2: Session-2: Big Data Management System

    Κινούμενα μέρη, υπολογιστικοί κόμβοι εκκίνηση/αποτυχία :ZooKeeper - Για υπηρεσίες διαμόρφωσης/συντονισμού/ονομασίας Σύνθετη γραμμή αγωγών/ροής εργασίας: Oozie – διαχείριση ροής εργασιών, εξαρτήσεων, αλυσίδας μαργαρίτας Ανάπτυξη, διαμόρφωση, διαχείριση συμπλέγματος, αναβάθμιση κ.λπ. (διαχειριστής sys) :Ambari στο Cloud: Βόμβος

Ημέρα-2: Περίοδος-3: Προγνωστικά αναλυτικά στοιχεία στο Business Intelligence -1: Θεμελιώδεις τεχνικές και μηχανική μάθηση BI :

    Εισαγωγή στη μηχανική μάθηση Τεχνικές ταξινόμησης εκμάθησης Bayesian Πρόβλεψη-προετοιμασία αρχείου εκπαίδευσης Υποστήριξη Vector Machine KNN p-Tree Algebra & vertical mining Neural Network Big Data πρόβλημα μεγάλης μεταβλητής -Τυχαίο δάσος (RF) Big Data Πρόβλημα αυτοματισμού – Multi-model ensemble RF Automation μέσω Soft10-M Εργαλείο ανάλυσης κειμένου-Treeminer Agile Learning Μάθηση με βάση τον παράγοντα Κατανεμημένη μάθηση Εισαγωγή στα Εργαλεία ανοιχτού κώδικα για προγνωστικά αναλυτικά στοιχεία: R, Rapidminer, Mahut

Ημέρα-2: Συνεδρία-4 Οικοσύστημα προγνωστικής ανάλυσης-2: Κοινά προβλήματα πρόβλεψης ανάλυσης στο Govt.

    Insight analytic Αναλυτική οπτικοποίηση Δομημένη προγνωστική αναλυτική Μη δομημένη προγνωστική αναλυτική Προφίλ Απειλής/απάτης/προφίλ προμηθευτή Σύσταση Ανίχνευσης μοτίβων μηχανών Ανακάλυψη κανόνα/σεναρίου –αποτυχία, απάτη, βελτιστοποίηση Ανακάλυψη ριζικής αιτίας Ανάλυση συναισθήματος Αναλυτική τεχνολογία Δικτύου ανάλυσης CRM Αναλυτική ανάλυση Αναλυτική ανάλυση Κείμενο

Day-3: Sesion-1: Real Time and Scalable Analytic Over Hadoop

    Γιατί αποτυγχάνουν οι κοινοί αναλυτικοί αλγόριθμοι στο Hadoop/HDFS Apache Hama- for Bulk Synchronous distributed computing Apache SPARK- for cluster computing για ανάλυση σε πραγματικό χρόνο CMU Graphics Lab2- Ασύγχρονη προσέγγιση βάσει γραφήματος σε κατανεμημένη υπολογιστική KNN p-Algebra για μειωμένη προσέγγιση βάσει Treeminer κόστος λειτουργίας υλικού

Day-3: Session-2: Tools for eDiscovery and Forensics

    eDiscovery over Big Data έναντι δεδομένων παλαιού τύπου – σύγκριση κόστους και απόδοσης Προγνωστική κωδικοποίηση και αναθεώρηση με τη βοήθεια τεχνολογίας (TAR) Ζωντανή επίδειξη ενός προϊόντος Tar (vMiner) για να κατανοήσετε πώς λειτουργεί το TAR για ταχύτερη ανακάλυψη Ταχύτερη ευρετηρίαση μέσω HDFS –ταχύτητα δεδομένων Επεξεργασία NLP ή φυσικής γλώσσας – διάφορες τεχνικές και προϊόντα ανοιχτού κώδικα eDiscovery σε ξένες γλώσσες-τεχνολογία για επεξεργασία ξένων γλωσσών

Ημέρα 3: Συνεδρία 3: Big Data BI για Cyber Security – Κατανόηση ολόκληρων προβολών 360 μοιρών της γρήγορης συλλογής δεδομένων έως την αναγνώριση απειλών

    Κατανόηση των βασικών στοιχείων ασφαλείας-επιφάνεια επίθεσης, εσφαλμένη διαμόρφωση ασφαλείας, άμυνες κεντρικού υπολογιστή Υποδομή δικτύου/ Μεγάλος σωλήνας δεδομένων / Απόκριση ETL για ανάλυση σε πραγματικό χρόνο Προδιαγραφική έναντι πρόβλεψης – Διορθωμένοι κανόνες βάσει κανόνων έναντι αυτόματης ανακάλυψης κανόνων απειλής από μεταδεδομένα

Ημέρα-3: Συνεδρία 4: Big Data στο USDA : Εφαρμογή στη Γεωργία

    Εισαγωγή στο IoT (Διαδίκτυο των πραγμάτων) για γεωργία με βάση αισθητήρες Big Data και έλεγχο Εισαγωγή στη δορυφορική απεικόνιση και η εφαρμογή της στη γεωργία Ενσωμάτωση δεδομένων αισθητήρων και εικόνας για τη γονιμότητα του εδάφους, σύσταση καλλιέργειας και πρόβλεψη Γεωργική ασφάλιση και Big Data Πρόβλεψη απώλειας καλλιεργειών

Ημέρα 4 : Περίοδος 1: BI πρόληψης απάτης από Big Data στο Govt-Fraud analytic:

    Βασική ταξινόμηση του Fraud analytics- βάσει κανόνων έναντι προγνωστικών analytics Εποπτευόμενη έναντι μη εποπτευόμενης Μηχανική εκμάθηση για ανίχνευση μοτίβων απάτης Απάτη προμηθευτή/υπέρ χρέωσης για έργα Medicare και Medicaid απάτης- τεχνικές ανίχνευσης απάτης για την επεξεργασία αξίωσης Απάτες επιστροφής χρημάτων ταξιδιωτικών απατών IRS demo απάτες να δίνονται όπου υπάρχουν διαθέσιμα δεδομένα.

Day-4 : Session-2: Social Media Αναλυτική- Συγκέντρωση και ανάλυση νοημοσύνης

    Big Data ETL API για εξαγωγή δεδομένων μέσων κοινωνικής δικτύωσης Κείμενο, εικόνα, μεταδεδομένα και βίντεο Ανάλυση συναισθήματος από τη ροή των μέσων κοινωνικής δικτύωσης Φιλτράρισμα με βάση τα συμφραζόμενα και χωρίς συμφραζόμενα της ροής των μέσων κοινωνικής δικτύωσης Social Media Πίνακας ελέγχου για την ενσωμάτωση διαφορετικών μέσων κοινωνικής δικτύωσης Αυτοματοποιημένο προφίλ προφίλ κοινωνικών μέσων Ζωντανή επίδειξη κάθε ανάλυσης θα δίνεται μέσω του Treeminer Tool.

Day-4 : Session-3: Big Data Αναλυτικό στην επεξεργασία εικόνας και ροές βίντεο

    Τεχνικές αποθήκευσης εικόνας στο Big Data- Λύση αποθήκευσης για δεδομένα που υπερβαίνουν τα petabyte LTFS και LTO GPFS-LTFS (Λύση αποθήκευσης σε επίπεδα για δεδομένα μεγάλων εικόνων) Βασικές αρχές ανάλυσης εικόνας Αναγνώριση αντικειμένων Τμηματοποίηση εικόνας Παρακολούθηση κίνησης Ανακατασκευή εικόνας 3-D

Ημέρα-4: Συνεδρία-4: Big Data αιτήσεις στο NIH:

    Αναδυόμενοι τομείς Bio-πληροφορικής Ζητήματα μετα-γονιδιωματικής και εξόρυξης μεγάλων δεδομένων Big Data Predictive analytic for Pharmacogenomics, Metabolomics and Proteomics Big Data in downstream διαδικασία Genomics Εφαρμογή των Big data predictive analytics στη δημόσια υγεία

Big Data Ταμπλό για γρήγορη πρόσβαση σε διαφορετικά δεδομένα και οθόνη:

    Ενσωμάτωση υπάρχουσας πλατφόρμας εφαρμογών με Big Data Dashboard Διαχείριση Μεγάλων Δεδομένων Μελέτη περίπτωσης Big Data Dashboard: Tableau και Pentaho Χρησιμοποιήστε την εφαρμογή Big Data για να προωθήσετε υπηρεσίες που βασίζονται στην τοποθεσία στο Govt. Σύστημα παρακολούθησης και διαχείρισης

Ημέρα-5 : Συνεδρία-1: Πώς να δικαιολογήσετε την εφαρμογή Big Data BI σε έναν οργανισμό:

    Καθορισμός απόδοσης επένδυσης για την εφαρμογή Big Data Μελέτες περίπτωσης για εξοικονόμηση χρόνου αναλυτής για συλλογή και προετοιμασία δεδομένων – αύξηση του κέρδους παραγωγικότητας Μελέτες περίπτωσης κέρδους εσόδων από την αποθήκευση του κόστους βάσης δεδομένων με άδεια Κέρδος εσόδων από υπηρεσίες βάσει τοποθεσίας Εξοικονόμηση από την πρόληψη απάτης Μια ολοκληρωμένη προσέγγιση υπολογιστικού φύλλου για υπολογίστε περίπου. δαπάνη έναντι κέρδους/εξοικονόμησης εσόδων από την εφαρμογή Big Data.

Ημέρα 5 : Περίοδος 2: Διαδικασία βήμα προς βήμα για την αντικατάσταση του παλαιού συστήματος δεδομένων στο Big Data Σύστημα:

    Κατανόηση του πρακτικού Big Data Χάρτη πορείας μετανάστευσης Ποιες είναι οι σημαντικές πληροφορίες που απαιτούνται πριν από την αρχιτεκτονική μιας Big Data υλοποίησης Ποιοι είναι οι διαφορετικοί τρόποι υπολογισμού του όγκου, της ταχύτητας, της ποικιλίας και της ακρίβειας των δεδομένων Πώς να εκτιμήσετε την ανάπτυξη δεδομένων Μελέτες περιπτώσεων

Ημέρα-5: Συνεδρία 4: Ανασκόπηση Big Data προμηθευτών και αναθεώρηση των προϊόντων τους. Συνεδρία Q/A:

    Accenture APTEAN (Πρώην Λογισμικό CDC) Συστήματα Cisco Cloudera Dell EMC GoodData Corporation Guavus Hitachi Data Systems Hortonworks HP IBM Informatica Intel Jaspersoft Microsoft MongoDB (Πρώην 10Gen) MU Sigma Netapp Λύσεις Opera Solutions Oracle Qforpatech Analytics AP Software AG /Terracotta Soft10 Automation Splunk Sqrrl Supermicro Tableau Software Teradata Think Big Analytics Tidemark Systems Treeminer VMware (Μέρος του EMC)

Requirements

  • Βασικές γνώσεις λειτουργίας επιχειρήσεων και συστημάτων δεδομένων στο Govt. στον τομέα τους
  • Βασική κατανόηση της SQL/Oracle ή της σχεσιακής βάσης δεδομένων
  • Βασική κατανόηση του Statistics (σε επίπεδο υπολογιστικού φύλλου)
  35 Hours
 

Number of participants


Starts

Ends


Dates are subject to availability and take place between 09:30 and 16:30.
Open Training Courses require 5+ participants.

Testimonials (4)

Related Courses

Setting Up an IoT Gateway with ThingsBoard

  35 Hours

Setting Up an IoT Gateway with Kura

  21 Hours

Data Analysis with Redash

  14 Hours

Business Intelligence and Data Analysis with Metabase

  14 Hours

Related Categories