Course Outline
Ημέρα 01
Επισκόπηση του Big Data Business Intelligence for Criminal Intelligence Analysis
- Μελέτες περιπτώσεων από την Επιβολή του Νόμου - Προγνωστική Αστυνόμευση
- Big Data ποσοστό υιοθεσίας στις υπηρεσίες επιβολής του νόμου και πώς ευθυγραμμίζουν τη μελλοντική τους λειτουργία γύρω από Big Data Predictive Analytics
- Αναδυόμενες τεχνολογικές λύσεις όπως αισθητήρες πυροβολισμών, βίντεο παρακολούθησης και μέσα κοινωνικής δικτύωσης
- Χρήση της τεχνολογίας Big Data για τον μετριασμό της υπερφόρτωσης πληροφοριών
- Διασύνδεση Big Data με δεδομένα παλαιού τύπου
- Βασική κατανόηση των τεχνολογιών ενεργοποίησης στην προγνωστική ανάλυση
- Data Integration & Οπτικοποίηση πίνακα εργαλείων
- Διαχείριση απάτης
- Business Rules και ανίχνευση απάτης
- Ανίχνευση και δημιουργία προφίλ απειλών
- Ανάλυση κόστους-οφέλους για την εφαρμογή Big Data
Εισαγωγή στο Big Data
- Κύρια χαρακτηριστικά του Big Data -- Όγκος, Ποικιλία, Ταχύτητα και Αλήθεια.
- Αρχιτεκτονική MPP (Massively Parallel Processing).
- Data Warehouses – στατικό σχήμα, αργά εξελισσόμενο σύνολο δεδομένων
- MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica κ.λπ.
- Hadoop Βασισμένες λύσεις – δεν υπάρχουν προϋποθέσεις για τη δομή του συνόλου δεδομένων.
- Τυπικό μοτίβο : HDFS, MapReduce (crunch), ανάκτηση από HDFS
- Apache Spark για επεξεργασία ροής
- Κατάλληλη παρτίδα για αναλυτική/μη διαδραστική
- Όγκος: Δεδομένα ροής CEP
- Τυπικές επιλογές – προϊόντα CEP (π.χ. Infostreams, Apama, MarkLogic κ.λπ.)
- Λιγότερη παραγωγή έτοιμη – Storm/S4
- NoSQL Databases – (στήλη και κλειδί-τιμή): Ταιριάζει καλύτερα ως αναλυτικό συμπλήρωμα σε αποθήκη δεδομένων/βάση δεδομένων
ΌχιSQL λύσεις
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (Ιεραρχικό) - GT.m, Cache
- KV Store (Παραγγελία) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Κατάστημα Tuple - Gigaspaces, Coord, Apache River
- Αντικείμενο Database - ZopeDB, DB40, Shoal
- Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Ποικιλίες Δεδομένων: Εισαγωγή στα Data Cleaning ζητήματα στα Μεγάλα Δεδομένα
- RDBMS – στατική δομή/σχήμα, δεν προωθεί ευέλικτο, εξερευνητικό περιβάλλον.
- NoSQL – ημιδομημένη, αρκετή δομή για αποθήκευση δεδομένων χωρίς ακριβές σχήμα πριν την αποθήκευση δεδομένων
- Ζητήματα καθαρισμού δεδομένων
Hadoop
- Πότε να επιλέξετε Hadoop;
- ΔΟΜΗΜΕΝΟ - Οι αποθήκες/βάσεις δεδομένων επιχειρήσεων μπορούν να αποθηκεύουν τεράστια δεδομένα (με κόστος), αλλά να επιβάλλουν δομή (δεν είναι καλή για ενεργή εξερεύνηση)
- ΗΜΙΔΟΜΗΜΕΝΑ δεδομένα – δύσκολο να πραγματοποιηθούν με χρήση παραδοσιακών λύσεων (DW/DB)
- Δεδομένα αποθήκευσης = ΤΕΡΑΣΤΙΑ προσπάθεια και στατική ακόμα και μετά την υλοποίηση
- Για ποικιλία και όγκο δεδομένων, συγκεντρωμένα σε υλικό βασικών προϊόντων – HADOOP
- Εμπορεύματα H/W που απαιτούνται για τη δημιουργία ενός Hadoop Cluster
Εισαγωγή στο Map Reduce /HDFS
- MapReduce – διανομή υπολογιστών σε πολλούς διακομιστές
- HDFS – να διατίθενται δεδομένα τοπικά για τη διαδικασία υπολογισμού (με πλεονασμό)
- Δεδομένα – μπορεί να είναι αδόμητα/χωρίς σχήματα (σε αντίθεση με το RDBMS)
- Ευθύνη προγραμματιστή να κατανοήσει τα δεδομένα
- Programming MapReduce = εργασία με Java (πλεονεκτήματα/μειονεκτήματα), μη αυτόματη φόρτωση δεδομένων σε HDFS
Ημέρα 02
Big Data Ecosystem -- Building Big Data ETL (Extract, Transform, Load) -- Ποια Big Data Εργαλεία να χρησιμοποιηθούν και πότε;
- Hadoop έναντι άλλων NoSQL λύσεων
- Για διαδραστική, τυχαία πρόσβαση στα δεδομένα
- Hbase (βάση δεδομένων προσανατολισμένη στη στήλη) πάνω από το Hadoop
- Τυχαία πρόσβαση στα δεδομένα αλλά επιβάλλονται περιορισμοί (μέγιστο 1 PB)
- Δεν είναι καλό για ad-hoc αναλυτικά στοιχεία, καλό για καταγραφή, καταμέτρηση, χρονοσειρές
- Sqoop - Εισαγωγή από βάσεις δεδομένων σε Hive ή HDFS (πρόσβαση JDBC/ODBC)
- Flume – Ροή δεδομένων (π.χ. δεδομένα καταγραφής) σε HDFS
Big Data Management Σύστημα
- Κινούμενα μέρη, υπολογιστικοί κόμβοι εκκίνηση/αποτυχία :ZooKeeper - Για υπηρεσίες διαμόρφωσης/συντονισμού/ονομασίας
- Σύνθετος αγωγός/ροή εργασίας: Oozie – διαχείριση ροής εργασιών, εξαρτήσεων, αλυσίδας μαργαριτών
- Ανάπτυξη, διαμόρφωση, διαχείριση συμπλέγματος, αναβάθμιση κ.λπ. (διαχειριστής sys): Ambari
- Στο Cloud : Whirr
Predictive Analytics -- Θεμελιώδεις τεχνικές και Business Intelligence που βασίζεται στη μηχανική μάθηση
- Εισαγωγή στο Machine Learning
- Τεχνικές ταξινόμησης μάθησης
- Μπεϋζιανή Πρόβλεψη -- προετοιμασία αρχείου εκπαίδευσης
- Υποστήριξη διανυσματική μηχανή
- KNN p-Tree Algebra & κάθετη εξόρυξη
- Neural Networks
- Big Data πρόβλημα μεγάλης μεταβλητής -- Τυχαίο δάσος (RF)
- Big Data Πρόβλημα αυτοματισμού – Σύνολο πολλαπλών μοντέλων RF
- Αυτοματισμός μέσω Soft10-M
- Εργαλείο ανάλυσης κειμένου-Treeminer
- Agile μάθηση
- Εκμάθηση βασισμένη σε πράκτορες
- Κατανεμημένη μάθηση
- Εισαγωγή στα Εργαλεία ανοιχτού κώδικα για προγνωστικά αναλυτικά στοιχεία : R, Python, Rapidminer, Mahut
Predictive Analytics Το Οικοσύστημα και η εφαρμογή του στην Ανάλυση Εγκληματικής Νοημοσύνης
- Τεχνολογία και ερευνητική διαδικασία
- Insight analytic
- Αναλύσεις οπτικοποίησης
- Δομημένη προγνωστική ανάλυση
- Μη δομημένη προγνωστική ανάλυση
- Προφίλ απειλών/απατεώνων/προμηθευτών
- Μηχανή σύστασης
- Ανίχνευση προτύπων
- Ανακάλυψη κανόνα/σεναρίου – αποτυχία, απάτη, βελτιστοποίηση
- Ανακάλυψη ριζικής αιτίας
- Ανάλυση συναισθήματος
- Αναλύσεις CRM
- Αναλύσεις δικτύου
- Αναλύσεις κειμένου για τη λήψη πληροφοριών από μεταγραφές, καταθέσεις μαρτύρων, συνομιλίες στο Διαδίκτυο κ.λπ.
- Αναθεώρηση με τη βοήθεια τεχνολογίας
- Αναλύσεις απάτης
- Αναλυτικό σε πραγματικό χρόνο
Ημέρα 03
Σε πραγματικό χρόνο και Scalable Analytics Over Hadoop
- Γιατί αποτυγχάνουν οι κοινοί αναλυτικοί αλγόριθμοι στο Hadoop/HDFS
- Apache Hama- για Bulk Synchronous κατανεμημένους υπολογιστές
- Apache SPARK- για υπολογιστές συμπλέγματος και ανάλυση σε πραγματικό χρόνο
- CMU Graphics Lab2- Ασύγχρονη προσέγγιση με βάση γραφήματα στον κατανεμημένο υπολογισμό
- KNN p -- Προσέγγιση με βάση την άλγεβρα από την Treeminer για μειωμένο κόστος λειτουργίας υλικού
Εργαλεία για eDiscovery και Forensics
- eDiscovery over Big Data έναντι δεδομένων παλαιού τύπου – σύγκριση κόστους και απόδοσης
- Προγνωστική κωδικοποίηση και αναθεώρηση υποβοηθούμενη από τεχνολογία (TAR)
- Ζωντανή επίδειξη του vMiner για να κατανοήσετε πώς το TAR επιτρέπει την ταχύτερη ανακάλυψη
- Ταχύτερη ευρετηρίαση μέσω HDFS – Ταχύτητα δεδομένων
- NLP (επεξεργασία φυσικής γλώσσας) – προϊόντα και τεχνικές ανοιχτού κώδικα
- eDiscovery σε ξένες γλώσσες -- τεχνολογία επεξεργασίας ξένων γλωσσών
Big Data BI for Cyber Security – Λήψη προβολής 360 μοιρών, γρήγορη συλλογή δεδομένων και αναγνώριση απειλών
- Κατανόηση των βασικών στοιχείων της ανάλυσης ασφαλείας -- επιφάνεια επίθεσης, εσφαλμένη διαμόρφωση ασφαλείας, άμυνες κεντρικού υπολογιστή
- Υποδομή δικτύου / Μεγάλος σωλήνας δεδομένων / Απόκριση ETL για ανάλυση σε πραγματικό χρόνο
- Προστακτική έναντι πρόβλεψης – Διορθώθηκε βάσει κανόνων έναντι αυτόματης ανακάλυψης κανόνων απειλής από δεδομένα Meta
Συλλογή ανόμοιων δεδομένων για την ανάλυση εγκληματικών πληροφοριών
- Χρησιμοποιώντας το IoT (Internet of Things) ως αισθητήρες για τη λήψη δεδομένων
- Χρήση δορυφορικών εικόνων για οικιακή επιτήρηση
- Χρήση δεδομένων παρακολούθησης και εικόνας για ταυτοποίηση εγκληματιών
- Άλλες τεχνολογίες συλλογής δεδομένων -- drones, κάμερες σώματος, συστήματα σήμανσης GPS και τεχνολογία θερμικής απεικόνισης
- Συνδυασμός αυτοματοποιημένης ανάκτησης δεδομένων με δεδομένα που λαμβάνονται από πληροφοριοδότες, ανάκριση και έρευνα
- Forecasting εγκληματική δραστηριότητα
Ημέρα 04
BI πρόληψης απάτης από το Big Data στο Fraud Analytics
- Βασική ταξινόμηση του Fraud Analytics -- βασισμένα σε κανόνες έναντι αναλυτικών προγνωστικών
- Εποπτευόμενη έναντι μη εποπτευόμενης Μηχανικής εκμάθησης για ανίχνευση μοτίβων απάτης
- Business για επιχειρηματική απάτη, απάτη ιατρικών αξιώσεων, ασφαλιστική απάτη, φοροδιαφυγή και ξέπλυμα βρώμικου χρήματος
Social Media Analytics -- Συγκέντρωση και ανάλυση πληροφοριών
- Πώς χρησιμοποιείται το Social Media από εγκληματίες για οργάνωση, στρατολόγηση και σχεδιασμό
- Big Data ETL API για την εξαγωγή δεδομένων μέσων κοινωνικής δικτύωσης
- Κείμενο, εικόνα, μεταδεδομένα και βίντεο
- Ανάλυση συναισθήματος από τη ροή των μέσων κοινωνικής δικτύωσης
- Συμφραζόμενο και μη συμφραζόμενο φιλτράρισμα της ροής των μέσων κοινωνικής δικτύωσης
- Social Media Πίνακας ελέγχου για την ενσωμάτωση ποικίλων μέσων κοινωνικής δικτύωσης
- Αυτοματοποιημένο προφίλ προφίλ στα μέσα κοινωνικής δικτύωσης
- Ζωντανή επίδειξη κάθε αναλυτικού στοιχείου θα δίνεται μέσω του Treeminer Tool
Big Data Αναλύσεις στην επεξεργασία εικόνας και ροές βίντεο
- Τεχνικές αποθήκευσης εικόνας στο Big Data -- Λύση αποθήκευσης για δεδομένα που υπερβαίνουν τα petabyte
- LTFS (Σύστημα αρχείων γραμμικής ταινίας) και LTO (γραμμική ταινία ανοιχτή)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) -- πολυεπίπεδη λύση αποθήκευσης για δεδομένα μεγάλων εικόνων
- Βασικές αρχές ανάλυσης εικόνας
- Αναγνώριση αντικειμένου
- Τμηματοποίηση εικόνας
- Παρακολούθηση κίνησης
- Τρισδιάστατη ανακατασκευή εικόνας
Bioμετρήσεις, DNA και προγράμματα ταυτοποίησης επόμενης γενιάς
- Πέρα από τα δακτυλικά αποτυπώματα και την αναγνώριση προσώπου
- Αναγνώριση ομιλίας, πληκτρολόγηση (αναλύοντας ένα μοτίβο πληκτρολόγησης χρηστών) και CODIS (συνδυασμένο σύστημα ευρετηρίου DNA)
- Πέρα από την αντιστοίχιση DNA: χρήση εγκληματολογικού φαινοτύπου DNA για την κατασκευή ενός προσώπου από δείγματα DNA
Big Data Ταμπλό για γρήγορη πρόσβαση σε διαφορετικά δεδομένα και οθόνη:
- Ενοποίηση υπάρχουσας πλατφόρμας εφαρμογών με Big Data Dashboard
- Big Data διαχείριση
- Μελέτη περίπτωσης Big Data Ταμπλό: Tableau και Pentaho
- Χρησιμοποιήστε την εφαρμογή Big Data για να προωθήσετε υπηρεσίες βάσει τοποθεσίας στο Govt.
- Σύστημα παρακολούθησης και διαχείρισης
Ημέρα 05
Πώς να δικαιολογήσετε την εφαρμογή Big Data BI σε έναν οργανισμό:
- Καθορισμός του ROI (Επιστροφή στο Investment) για την εφαρμογή του Big Data
- Μελέτες περίπτωσης για εξοικονόμηση χρόνου αναλυτή στη συλλογή και προετοιμασία Δεδομένων – αύξηση της παραγωγικότητας
- Κέρδος εσόδων από χαμηλότερο κόστος αδειοδότησης βάσης δεδομένων
- Κέρδος εσόδων από υπηρεσίες βάσει τοποθεσίας
- Εξοικονόμηση κόστους από την πρόληψη της απάτης
- Μια ολοκληρωμένη προσέγγιση υπολογιστικού φύλλου για τον υπολογισμό κατά προσέγγιση δαπανών έναντι κέρδους/εξοικονόμησης εσόδων από την εφαρμογή Big Data.
Βήμα προς βήμα διαδικασία για την αντικατάσταση ενός παλαιού συστήματος δεδομένων με ένα σύστημα Big Data
- Big Data Οδικός χάρτης μετανάστευσης
- Ποιες κρίσιμες πληροφορίες χρειάζονται πριν από την αρχιτεκτονική ενός συστήματος Big Data;
- Ποιοι είναι οι διαφορετικοί τρόποι υπολογισμού του όγκου, της ταχύτητας, της ποικιλίας και της ακρίβειας των δεδομένων
- Πώς να εκτιμήσετε την αύξηση των δεδομένων
- Μελέτες περιπτώσεων
Έλεγχος Big Data Προμηθευτών και αναθεώρηση των προϊόντων τους.
- Accenture
- APTEAN (Πρώην λογισμικό CDC)
- Cisco Συστήματα
- Cloudera
- Λαγκάδα
- EMC
- GoodData Corporation
- Γκουάβος
- Συστήματα Δεδομένων Hitachi
- Hortonworks
- ιπποδύναμη
- IBM
- Πληροφορική
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Πρώην 10Gen)
- MU Sigma
- Netapp
- Λύσεις Opera
- Oracle
- Pentaho
- Πλατφόρα
- Qliktech
- Ποσοστό
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Ινστιτούτο
- Sisense
- Λογισμικό AG/Terracotta
- Soft10 Αυτοματισμός
- Splunk
- Sqrrl
- Supermicro
- Tableau Λογισμικό
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Μέρος της EMC)
Συνεδρία Q/A
Requirements
- Γνώση διαδικασιών επιβολής του νόμου και συστημάτων δεδομένων
- Βασική κατανόηση του SQL/Oracle ή σχεσιακής βάσης δεδομένων
- Βασική κατανόηση στατιστικών (σε επίπεδο υπολογιστικού φύλλου)
Ακροατήριο
- Ειδικοί επιβολής του νόμου με τεχνικό υπόβαθρο
Testimonials (2)
Η Deepthi ήταν εξαιρετικά προσαρμοσμένη στις ανάγκες μου, μπορούσε να πει πότε να προσθέσει επίπεδα πολυπλοκότητας και πότε να κρατήσει πίσω και να ακολουθήσει μια πιο δομημένη προσέγγιση. Ο Deepthi δούλεψε πραγματικά με τον ρυθμό μου και διασφάλισε ότι θα μπορούσα να χρησιμοποιήσω τις νέες λειτουργίες/εργαλεία μόνος μου, δείχνοντάς μου πρώτα, στη συνέχεια, επιτρέποντάς μου να αναδημιουργήσω τα αντικείμενα μόνος μου, κάτι που βοήθησε πραγματικά στην ενσωμάτωση της εκπαίδευσης. Δεν θα μπορούσα να είμαι πιο χαρούμενος με τα αποτελέσματα αυτής της εκπαίδευσης και με το επίπεδο τεχνογνωσίας της Deepthi!
Deepthi - Invest Northern Ireland
Course - IBM Cognos Analytics
Machine Translated
Πολύ καθαρά εκφρασμένα και εξηγημένα
Harshit Arora - PwC South East Asia Consulting
Course - Alteryx for Developers
Machine Translated