Course Outline

Ημέρα 01

Επισκόπηση του Big Data Business Intelligence for Criminal Intelligence Analysis

  • Μελέτες περιπτώσεων από την Επιβολή του Νόμου - Προγνωστική Αστυνόμευση
  • Big Data ποσοστό υιοθεσίας στις υπηρεσίες επιβολής του νόμου και πώς ευθυγραμμίζουν τη μελλοντική τους λειτουργία γύρω από Big Data Predictive Analytics
  • Αναδυόμενες τεχνολογικές λύσεις όπως αισθητήρες πυροβολισμών, βίντεο παρακολούθησης και μέσα κοινωνικής δικτύωσης
  • Χρήση της τεχνολογίας Big Data για τον μετριασμό της υπερφόρτωσης πληροφοριών
  • Διασύνδεση Big Data με δεδομένα παλαιού τύπου
  • Βασική κατανόηση των τεχνολογιών ενεργοποίησης στην προγνωστική ανάλυση
  • Data Integration & Οπτικοποίηση πίνακα εργαλείων
  • Διαχείριση απάτης
  • Business Rules και ανίχνευση απάτης
  • Ανίχνευση και δημιουργία προφίλ απειλών
  • Ανάλυση κόστους-οφέλους για την εφαρμογή Big Data

Εισαγωγή στο Big Data

  • Κύρια χαρακτηριστικά του Big Data -- Όγκος, Ποικιλία, Ταχύτητα και Αλήθεια.
  • Αρχιτεκτονική MPP (Massively Parallel Processing).
  • Data Warehouses – στατικό σχήμα, αργά εξελισσόμενο σύνολο δεδομένων
  • MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica κ.λπ.
  • Hadoop Βασισμένες λύσεις – δεν υπάρχουν προϋποθέσεις για τη δομή του συνόλου δεδομένων.
  • Τυπικό μοτίβο : HDFS, MapReduce (crunch), ανάκτηση από HDFS
  • Apache Spark για επεξεργασία ροής
  • Κατάλληλη παρτίδα για αναλυτική/μη διαδραστική
  • Όγκος: Δεδομένα ροής CEP
  • Τυπικές επιλογές – προϊόντα CEP (π.χ. Infostreams, Apama, MarkLogic κ.λπ.)
  • Λιγότερη παραγωγή έτοιμη – Storm/S4
  • NoSQL Databases – (στήλη και κλειδί-τιμή): Ταιριάζει καλύτερα ως αναλυτικό συμπλήρωμα σε αποθήκη δεδομένων/βάση δεδομένων

ΌχιSQL λύσεις

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (Ιεραρχικό) - GT.m, Cache
  • KV Store (Παραγγελία) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Κατάστημα Tuple - Gigaspaces, Coord, Apache River
  • Αντικείμενο Database - ZopeDB, DB40, Shoal
  • Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Ποικιλίες Δεδομένων: Εισαγωγή στα Data Cleaning ζητήματα στα Μεγάλα Δεδομένα

  • RDBMS – στατική δομή/σχήμα, δεν προωθεί ευέλικτο, εξερευνητικό περιβάλλον.
  • NoSQL – ημιδομημένη, αρκετή δομή για αποθήκευση δεδομένων χωρίς ακριβές σχήμα πριν την αποθήκευση δεδομένων
  • Ζητήματα καθαρισμού δεδομένων

Hadoop

  • Πότε να επιλέξετε Hadoop;
  • ΔΟΜΗΜΕΝΟ - Οι αποθήκες/βάσεις δεδομένων επιχειρήσεων μπορούν να αποθηκεύουν τεράστια δεδομένα (με κόστος), αλλά να επιβάλλουν δομή (δεν είναι καλή για ενεργή εξερεύνηση)
  • ΗΜΙΔΟΜΗΜΕΝΑ δεδομένα – δύσκολο να πραγματοποιηθούν με χρήση παραδοσιακών λύσεων (DW/DB)
  • Δεδομένα αποθήκευσης = ΤΕΡΑΣΤΙΑ προσπάθεια και στατική ακόμα και μετά την υλοποίηση
  • Για ποικιλία και όγκο δεδομένων, συγκεντρωμένα σε υλικό βασικών προϊόντων – HADOOP
  • Εμπορεύματα H/W που απαιτούνται για τη δημιουργία ενός Hadoop Cluster

Εισαγωγή στο Map Reduce /HDFS

  • MapReduce – διανομή υπολογιστών σε πολλούς διακομιστές
  • HDFS – να διατίθενται δεδομένα τοπικά για τη διαδικασία υπολογισμού (με πλεονασμό)
  • Δεδομένα – μπορεί να είναι αδόμητα/χωρίς σχήματα (σε αντίθεση με το RDBMS)
  • Ευθύνη προγραμματιστή να κατανοήσει τα δεδομένα
  • Programming MapReduce = εργασία με Java (πλεονεκτήματα/μειονεκτήματα), μη αυτόματη φόρτωση δεδομένων σε HDFS

Ημέρα 02

Big Data Ecosystem -- Building Big Data ETL (Extract, Transform, Load) -- Ποια Big Data Εργαλεία να χρησιμοποιηθούν και πότε;

  • Hadoop έναντι άλλων NoSQL λύσεων
  • Για διαδραστική, τυχαία πρόσβαση στα δεδομένα
  • Hbase (βάση δεδομένων προσανατολισμένη στη στήλη) πάνω από το Hadoop
  • Τυχαία πρόσβαση στα δεδομένα αλλά επιβάλλονται περιορισμοί (μέγιστο 1 PB)
  • Δεν είναι καλό για ad-hoc αναλυτικά στοιχεία, καλό για καταγραφή, καταμέτρηση, χρονοσειρές
  • Sqoop - Εισαγωγή από βάσεις δεδομένων σε Hive ή HDFS (πρόσβαση JDBC/ODBC)
  • Flume – Ροή δεδομένων (π.χ. δεδομένα καταγραφής) σε HDFS

Big Data Management Σύστημα

  • Κινούμενα μέρη, υπολογιστικοί κόμβοι εκκίνηση/αποτυχία :ZooKeeper - Για υπηρεσίες διαμόρφωσης/συντονισμού/ονομασίας
  • Σύνθετος αγωγός/ροή εργασίας: Oozie – διαχείριση ροής εργασιών, εξαρτήσεων, αλυσίδας μαργαριτών
  • Ανάπτυξη, διαμόρφωση, διαχείριση συμπλέγματος, αναβάθμιση κ.λπ. (διαχειριστής sys): Ambari
  • Στο Cloud : Whirr

Predictive Analytics -- Θεμελιώδεις τεχνικές και Business Intelligence που βασίζεται στη μηχανική μάθηση

  • Εισαγωγή στο Machine Learning
  • Τεχνικές ταξινόμησης μάθησης
  • Μπεϋζιανή Πρόβλεψη -- προετοιμασία αρχείου εκπαίδευσης
  • Υποστήριξη διανυσματική μηχανή
  • KNN p-Tree Algebra & κάθετη εξόρυξη
  • Neural Networks
  • Big Data πρόβλημα μεγάλης μεταβλητής -- Τυχαίο δάσος (RF)
  • Big Data Πρόβλημα αυτοματισμού – Σύνολο πολλαπλών μοντέλων RF
  • Αυτοματισμός μέσω Soft10-M
  • Εργαλείο ανάλυσης κειμένου-Treeminer
  • Agile μάθηση
  • Εκμάθηση βασισμένη σε πράκτορες
  • Κατανεμημένη μάθηση
  • Εισαγωγή στα Εργαλεία ανοιχτού κώδικα για προγνωστικά αναλυτικά στοιχεία : R, Python, Rapidminer, Mahut

Predictive Analytics Το Οικοσύστημα και η εφαρμογή του στην Ανάλυση Εγκληματικής Νοημοσύνης

  • Τεχνολογία και ερευνητική διαδικασία
  • Insight analytic
  • Αναλύσεις οπτικοποίησης
  • Δομημένη προγνωστική ανάλυση
  • Μη δομημένη προγνωστική ανάλυση
  • Προφίλ απειλών/απατεώνων/προμηθευτών
  • Μηχανή σύστασης
  • Ανίχνευση προτύπων
  • Ανακάλυψη κανόνα/σεναρίου – αποτυχία, απάτη, βελτιστοποίηση
  • Ανακάλυψη ριζικής αιτίας
  • Ανάλυση συναισθήματος
  • Αναλύσεις CRM
  • Αναλύσεις δικτύου
  • Αναλύσεις κειμένου για τη λήψη πληροφοριών από μεταγραφές, καταθέσεις μαρτύρων, συνομιλίες στο Διαδίκτυο κ.λπ.
  • Αναθεώρηση με τη βοήθεια τεχνολογίας
  • Αναλύσεις απάτης
  • Αναλυτικό σε πραγματικό χρόνο

Ημέρα 03

Σε πραγματικό χρόνο και Scalable Analytics Over Hadoop

  • Γιατί αποτυγχάνουν οι κοινοί αναλυτικοί αλγόριθμοι στο Hadoop/HDFS
  • Apache Hama- για Bulk Synchronous κατανεμημένους υπολογιστές
  • Apache SPARK- για υπολογιστές συμπλέγματος και ανάλυση σε πραγματικό χρόνο
  • CMU Graphics Lab2- Ασύγχρονη προσέγγιση με βάση γραφήματα στον κατανεμημένο υπολογισμό
  • KNN p -- Προσέγγιση με βάση την άλγεβρα από την Treeminer για μειωμένο κόστος λειτουργίας υλικού

Εργαλεία για eDiscovery και Forensics

  • eDiscovery over Big Data έναντι δεδομένων παλαιού τύπου – σύγκριση κόστους και απόδοσης
  • Προγνωστική κωδικοποίηση και αναθεώρηση υποβοηθούμενη από τεχνολογία (TAR)
  • Ζωντανή επίδειξη του vMiner για να κατανοήσετε πώς το TAR επιτρέπει την ταχύτερη ανακάλυψη
  • Ταχύτερη ευρετηρίαση μέσω HDFS – Ταχύτητα δεδομένων
  • NLP (επεξεργασία φυσικής γλώσσας) – προϊόντα και τεχνικές ανοιχτού κώδικα
  • eDiscovery σε ξένες γλώσσες -- τεχνολογία επεξεργασίας ξένων γλωσσών

Big Data BI for Cyber Security – Λήψη προβολής 360 μοιρών, γρήγορη συλλογή δεδομένων και αναγνώριση απειλών

  • Κατανόηση των βασικών στοιχείων της ανάλυσης ασφαλείας -- επιφάνεια επίθεσης, εσφαλμένη διαμόρφωση ασφαλείας, άμυνες κεντρικού υπολογιστή
  • Υποδομή δικτύου / Μεγάλος σωλήνας δεδομένων / Απόκριση ETL για ανάλυση σε πραγματικό χρόνο
  • Προστακτική έναντι πρόβλεψης – Διορθώθηκε βάσει κανόνων έναντι αυτόματης ανακάλυψης κανόνων απειλής από δεδομένα Meta

Συλλογή ανόμοιων δεδομένων για την ανάλυση εγκληματικών πληροφοριών

  • Χρησιμοποιώντας το IoT (Internet of Things) ως αισθητήρες για τη λήψη δεδομένων
  • Χρήση δορυφορικών εικόνων για οικιακή επιτήρηση
  • Χρήση δεδομένων παρακολούθησης και εικόνας για ταυτοποίηση εγκληματιών
  • Άλλες τεχνολογίες συλλογής δεδομένων -- drones, κάμερες σώματος, συστήματα σήμανσης GPS και τεχνολογία θερμικής απεικόνισης
  • Συνδυασμός αυτοματοποιημένης ανάκτησης δεδομένων με δεδομένα που λαμβάνονται από πληροφοριοδότες, ανάκριση και έρευνα
  • Forecasting εγκληματική δραστηριότητα

Ημέρα 04

BI πρόληψης απάτης από το Big Data στο Fraud Analytics

  • Βασική ταξινόμηση του Fraud Analytics -- βασισμένα σε κανόνες έναντι αναλυτικών προγνωστικών
  • Εποπτευόμενη έναντι μη εποπτευόμενης Μηχανικής εκμάθησης για ανίχνευση μοτίβων απάτης
  • Business για επιχειρηματική απάτη, απάτη ιατρικών αξιώσεων, ασφαλιστική απάτη, φοροδιαφυγή και ξέπλυμα βρώμικου χρήματος

Social Media Analytics -- Συγκέντρωση και ανάλυση πληροφοριών

  • Πώς χρησιμοποιείται το Social Media από εγκληματίες για οργάνωση, στρατολόγηση και σχεδιασμό
  • Big Data ETL API για την εξαγωγή δεδομένων μέσων κοινωνικής δικτύωσης
  • Κείμενο, εικόνα, μεταδεδομένα και βίντεο
  • Ανάλυση συναισθήματος από τη ροή των μέσων κοινωνικής δικτύωσης
  • Συμφραζόμενο και μη συμφραζόμενο φιλτράρισμα της ροής των μέσων κοινωνικής δικτύωσης
  • Social Media Πίνακας ελέγχου για την ενσωμάτωση ποικίλων μέσων κοινωνικής δικτύωσης
  • Αυτοματοποιημένο προφίλ προφίλ στα μέσα κοινωνικής δικτύωσης
  • Ζωντανή επίδειξη κάθε αναλυτικού στοιχείου θα δίνεται μέσω του Treeminer Tool

Big Data Αναλύσεις στην επεξεργασία εικόνας και ροές βίντεο

  • Τεχνικές αποθήκευσης εικόνας στο Big Data -- Λύση αποθήκευσης για δεδομένα που υπερβαίνουν τα petabyte
  • LTFS (Σύστημα αρχείων γραμμικής ταινίας) και LTO (γραμμική ταινία ανοιχτή)
  • GPFS-LTFS (General Parallel File System - Linear Tape File System) -- πολυεπίπεδη λύση αποθήκευσης για δεδομένα μεγάλων εικόνων
  • Βασικές αρχές ανάλυσης εικόνας
  • Αναγνώριση αντικειμένου
  • Τμηματοποίηση εικόνας
  • Παρακολούθηση κίνησης
  • Τρισδιάστατη ανακατασκευή εικόνας

Bioμετρήσεις, DNA και προγράμματα ταυτοποίησης επόμενης γενιάς

  • Πέρα από τα δακτυλικά αποτυπώματα και την αναγνώριση προσώπου
  • Αναγνώριση ομιλίας, πληκτρολόγηση (αναλύοντας ένα μοτίβο πληκτρολόγησης χρηστών) και CODIS (συνδυασμένο σύστημα ευρετηρίου DNA)
  • Πέρα από την αντιστοίχιση DNA: χρήση εγκληματολογικού φαινοτύπου DNA για την κατασκευή ενός προσώπου από δείγματα DNA

Big Data Ταμπλό για γρήγορη πρόσβαση σε διαφορετικά δεδομένα και οθόνη:

  • Ενοποίηση υπάρχουσας πλατφόρμας εφαρμογών με Big Data Dashboard
  • Big Data διαχείριση
  • Μελέτη περίπτωσης Big Data Ταμπλό: Tableau και Pentaho
  • Χρησιμοποιήστε την εφαρμογή Big Data για να προωθήσετε υπηρεσίες βάσει τοποθεσίας στο Govt.
  • Σύστημα παρακολούθησης και διαχείρισης

Ημέρα 05

Πώς να δικαιολογήσετε την εφαρμογή Big Data BI σε έναν οργανισμό:

  • Καθορισμός του ROI (Επιστροφή στο Investment) για την εφαρμογή του Big Data
  • Μελέτες περίπτωσης για εξοικονόμηση χρόνου αναλυτή στη συλλογή και προετοιμασία Δεδομένων – αύξηση της παραγωγικότητας
  • Κέρδος εσόδων από χαμηλότερο κόστος αδειοδότησης βάσης δεδομένων
  • Κέρδος εσόδων από υπηρεσίες βάσει τοποθεσίας
  • Εξοικονόμηση κόστους από την πρόληψη της απάτης
  • Μια ολοκληρωμένη προσέγγιση υπολογιστικού φύλλου για τον υπολογισμό κατά προσέγγιση δαπανών έναντι κέρδους/εξοικονόμησης εσόδων από την εφαρμογή Big Data.

Βήμα προς βήμα διαδικασία για την αντικατάσταση ενός παλαιού συστήματος δεδομένων με ένα σύστημα Big Data

  • Big Data Οδικός χάρτης μετανάστευσης
  • Ποιες κρίσιμες πληροφορίες χρειάζονται πριν από την αρχιτεκτονική ενός συστήματος Big Data;
  • Ποιοι είναι οι διαφορετικοί τρόποι υπολογισμού του όγκου, της ταχύτητας, της ποικιλίας και της ακρίβειας των δεδομένων
  • Πώς να εκτιμήσετε την αύξηση των δεδομένων
  • Μελέτες περιπτώσεων

Έλεγχος Big Data Προμηθευτών και αναθεώρηση των προϊόντων τους.

  • Accenture
  • APTEAN (Πρώην λογισμικό CDC)
  • Cisco Συστήματα
  • Cloudera
  • Λαγκάδα
  • EMC
  • GoodData Corporation
  • Γκουάβος
  • Συστήματα Δεδομένων Hitachi
  • Hortonworks
  • ιπποδύναμη
  • IBM
  • Πληροφορική
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Πρώην 10Gen)
  • MU Sigma
  • Netapp
  • Λύσεις Opera
  • Oracle
  • Pentaho
  • Πλατφόρα
  • Qliktech
  • Ποσοστό
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Ινστιτούτο
  • Sisense
  • Λογισμικό AG/Terracotta
  • Soft10 Αυτοματισμός
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Λογισμικό
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (Μέρος της EMC)

Συνεδρία Q/A

Requirements

  • Γνώση διαδικασιών επιβολής του νόμου και συστημάτων δεδομένων
  • Βασική κατανόηση του SQL/Oracle ή σχεσιακής βάσης δεδομένων
  • Βασική κατανόηση στατιστικών (σε επίπεδο υπολογιστικού φύλλου)

Ακροατήριο

  • Ειδικοί επιβολής του νόμου με τεχνικό υπόβαθρο
 35 Hours

Number of participants


Price per participant

Testimonials (2)

Upcoming Courses

Related Categories