Εξέλιξη Κομματιού
Ημέρα 01
Επισκόπηση του Big Data Business Intelligence for Criminal Intelligence Analysis
- Μελέτες περιπτώσεων από την Επιβολή του Νόμου - Προγνωστική Αστυνόμευση
- Big Data ποσοστό υιοθεσίας στις υπηρεσίες επιβολής του νόμου και πώς ευθυγραμμίζουν τη μελλοντική τους λειτουργία γύρω από Big Data Predictive Analytics
- Αναδυόμενες τεχνολογικές λύσεις όπως αισθητήρες πυροβολισμών, βίντεο παρακολούθησης και μέσα κοινωνικής δικτύωσης
- Χρήση της τεχνολογίας Big Data για τον μετριασμό της υπερφόρτωσης πληροφοριών
- Διασύνδεση Big Data με δεδομένα παλαιού τύπου
- Βασική κατανόηση των τεχνολογιών ενεργοποίησης στην προγνωστική ανάλυση
- Data Integration & Οπτικοποίηση πίνακα εργαλείων
- Διαχείριση απάτης
- Business Rules και ανίχνευση απάτης
- Ανίχνευση και δημιουργία προφίλ απειλών
- Ανάλυση κόστους-οφέλους για την εφαρμογή Big Data
Εισαγωγή στο Big Data
- Κύρια χαρακτηριστικά του Big Data -- Όγκος, Ποικιλία, Ταχύτητα και Αλήθεια.
- Αρχιτεκτονική MPP (Massively Parallel Processing).
- Data Warehouses – στατικό σχήμα, αργά εξελισσόμενο σύνολο δεδομένων
- MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica κ.λπ.
- Hadoop Βασισμένες λύσεις – δεν υπάρχουν προϋποθέσεις για τη δομή του συνόλου δεδομένων.
- Τυπικό μοτίβο : HDFS, MapReduce (crunch), ανάκτηση από HDFS
- Apache Spark για επεξεργασία ροής
- Κατάλληλη παρτίδα για αναλυτική/μη διαδραστική
- Όγκος: Δεδομένα ροής CEP
- Τυπικές επιλογές – προϊόντα CEP (π.χ. Infostreams, Apama, MarkLogic κ.λπ.)
- Λιγότερη παραγωγή έτοιμη – Storm/S4
- NoSQL Databases – (στήλη και κλειδί-τιμή): Ταιριάζει καλύτερα ως αναλυτικό συμπλήρωμα σε αποθήκη δεδομένων/βάση δεδομένων
ΌχιSQL λύσεις
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (Ιεραρχικό) - GT.m, Cache
- KV Store (Παραγγελία) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Κατάστημα Tuple - Gigaspaces, Coord, Apache River
- Αντικείμενο Database - ZopeDB, DB40, Shoal
- Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Ποικιλίες Δεδομένων: Εισαγωγή στα Data Cleaning ζητήματα στα Μεγάλα Δεδομένα
- RDBMS – στατική δομή/σχήμα, δεν προωθεί ευέλικτο, εξερευνητικό περιβάλλον.
- NoSQL – ημιδομημένη, αρκετή δομή για αποθήκευση δεδομένων χωρίς ακριβές σχήμα πριν την αποθήκευση δεδομένων
- Ζητήματα καθαρισμού δεδομένων
Hadoop
- Πότε να επιλέξετε Hadoop;
- ΔΟΜΗΜΕΝΟ - Οι αποθήκες/βάσεις δεδομένων επιχειρήσεων μπορούν να αποθηκεύουν τεράστια δεδομένα (με κόστος), αλλά να επιβάλλουν δομή (δεν είναι καλή για ενεργή εξερεύνηση)
- ΗΜΙΔΟΜΗΜΕΝΑ δεδομένα – δύσκολο να πραγματοποιηθούν με χρήση παραδοσιακών λύσεων (DW/DB)
- Δεδομένα αποθήκευσης = ΤΕΡΑΣΤΙΑ προσπάθεια και στατική ακόμα και μετά την υλοποίηση
- Για ποικιλία και όγκο δεδομένων, συγκεντρωμένα σε υλικό βασικών προϊόντων – HADOOP
- Εμπορεύματα H/W που απαιτούνται για τη δημιουργία ενός Hadoop Cluster
Εισαγωγή στο Map Reduce /HDFS
- MapReduce – διανομή υπολογιστών σε πολλούς διακομιστές
- HDFS – να διατίθενται δεδομένα τοπικά για τη διαδικασία υπολογισμού (με πλεονασμό)
- Δεδομένα – μπορεί να είναι αδόμητα/χωρίς σχήματα (σε αντίθεση με το RDBMS)
- Ευθύνη προγραμματιστή να κατανοήσει τα δεδομένα
- Programming MapReduce = εργασία με Java (πλεονεκτήματα/μειονεκτήματα), μη αυτόματη φόρτωση δεδομένων σε HDFS
Ημέρα 02
Big Data Ecosystem -- Building Big Data ETL (Extract, Transform, Load) -- Ποια Big Data Εργαλεία να χρησιμοποιηθούν και πότε;
- Hadoop έναντι άλλων NoSQL λύσεων
- Για διαδραστική, τυχαία πρόσβαση στα δεδομένα
- Hbase (βάση δεδομένων προσανατολισμένη στη στήλη) πάνω από το Hadoop
- Τυχαία πρόσβαση στα δεδομένα αλλά επιβάλλονται περιορισμοί (μέγιστο 1 PB)
- Δεν είναι καλό για ad-hoc αναλυτικά στοιχεία, καλό για καταγραφή, καταμέτρηση, χρονοσειρές
- Sqoop - Εισαγωγή από βάσεις δεδομένων σε Hive ή HDFS (πρόσβαση JDBC/ODBC)
- Flume – Ροή δεδομένων (π.χ. δεδομένα καταγραφής) σε HDFS
Big Data Management Σύστημα
- Κινούμενα μέρη, υπολογιστικοί κόμβοι εκκίνηση/αποτυχία :ZooKeeper - Για υπηρεσίες διαμόρφωσης/συντονισμού/ονομασίας
- Σύνθετος αγωγός/ροή εργασίας: Oozie – διαχείριση ροής εργασιών, εξαρτήσεων, αλυσίδας μαργαριτών
- Ανάπτυξη, διαμόρφωση, διαχείριση συμπλέγματος, αναβάθμιση κ.λπ. (διαχειριστής sys): Ambari
- Στο Cloud : Whirr
Predictive Analytics -- Θεμελιώδεις τεχνικές και Business Intelligence που βασίζεται στη μηχανική μάθηση
- Εισαγωγή στο Machine Learning
- Τεχνικές ταξινόμησης μάθησης
- Μπεϋζιανή Πρόβλεψη -- προετοιμασία αρχείου εκπαίδευσης
- Υποστήριξη διανυσματική μηχανή
- KNN p-Tree Algebra & κάθετη εξόρυξη
- Neural Networks
- Big Data πρόβλημα μεγάλης μεταβλητής -- Τυχαίο δάσος (RF)
- Big Data Πρόβλημα αυτοματισμού – Σύνολο πολλαπλών μοντέλων RF
- Αυτοματισμός μέσω Soft10-M
- Εργαλείο ανάλυσης κειμένου-Treeminer
- Agile μάθηση
- Εκμάθηση βασισμένη σε πράκτορες
- Κατανεμημένη μάθηση
- Εισαγωγή στα Εργαλεία ανοιχτού κώδικα για προγνωστικά αναλυτικά στοιχεία : R, Python, Rapidminer, Mahut
Predictive Analytics Το Οικοσύστημα και η εφαρμογή του στην Ανάλυση Εγκληματικής Νοημοσύνης
- Τεχνολογία και ερευνητική διαδικασία
- Insight analytic
- Αναλύσεις οπτικοποίησης
- Δομημένη προγνωστική ανάλυση
- Μη δομημένη προγνωστική ανάλυση
- Προφίλ απειλών/απατεώνων/προμηθευτών
- Μηχανή σύστασης
- Ανίχνευση προτύπων
- Ανακάλυψη κανόνα/σεναρίου – αποτυχία, απάτη, βελτιστοποίηση
- Ανακάλυψη ριζικής αιτίας
- Ανάλυση συναισθήματος
- Αναλύσεις CRM
- Αναλύσεις δικτύου
- Αναλύσεις κειμένου για τη λήψη πληροφοριών από μεταγραφές, καταθέσεις μαρτύρων, συνομιλίες στο Διαδίκτυο κ.λπ.
- Αναθεώρηση με τη βοήθεια τεχνολογίας
- Αναλύσεις απάτης
- Αναλυτικό σε πραγματικό χρόνο
Ημέρα 03
Σε πραγματικό χρόνο και Scalable Analytics Over Hadoop
- Γιατί αποτυγχάνουν οι κοινοί αναλυτικοί αλγόριθμοι στο Hadoop/HDFS
- Apache Hama- για Bulk Synchronous κατανεμημένους υπολογιστές
- Apache SPARK- για υπολογιστές συμπλέγματος και ανάλυση σε πραγματικό χρόνο
- CMU Graphics Lab2- Ασύγχρονη προσέγγιση με βάση γραφήματα στον κατανεμημένο υπολογισμό
- KNN p -- Προσέγγιση με βάση την άλγεβρα από την Treeminer για μειωμένο κόστος λειτουργίας υλικού
Εργαλεία για eDiscovery και Forensics
- eDiscovery over Big Data έναντι δεδομένων παλαιού τύπου – σύγκριση κόστους και απόδοσης
- Προγνωστική κωδικοποίηση και αναθεώρηση υποβοηθούμενη από τεχνολογία (TAR)
- Ζωντανή επίδειξη του vMiner για να κατανοήσετε πώς το TAR επιτρέπει την ταχύτερη ανακάλυψη
- Ταχύτερη ευρετηρίαση μέσω HDFS – Ταχύτητα δεδομένων
- NLP (επεξεργασία φυσικής γλώσσας) – προϊόντα και τεχνικές ανοιχτού κώδικα
- eDiscovery σε ξένες γλώσσες -- τεχνολογία επεξεργασίας ξένων γλωσσών
Big Data BI for Cyber Security – Λήψη προβολής 360 μοιρών, γρήγορη συλλογή δεδομένων και αναγνώριση απειλών
- Κατανόηση των βασικών στοιχείων της ανάλυσης ασφαλείας -- επιφάνεια επίθεσης, εσφαλμένη διαμόρφωση ασφαλείας, άμυνες κεντρικού υπολογιστή
- Υποδομή δικτύου / Μεγάλος σωλήνας δεδομένων / Απόκριση ETL για ανάλυση σε πραγματικό χρόνο
- Προστακτική έναντι πρόβλεψης – Διορθώθηκε βάσει κανόνων έναντι αυτόματης ανακάλυψης κανόνων απειλής από δεδομένα Meta
Συλλογή ανόμοιων δεδομένων για την ανάλυση εγκληματικών πληροφοριών
- Χρησιμοποιώντας το IoT (Internet of Things) ως αισθητήρες για τη λήψη δεδομένων
- Χρήση δορυφορικών εικόνων για οικιακή επιτήρηση
- Χρήση δεδομένων παρακολούθησης και εικόνας για ταυτοποίηση εγκληματιών
- Άλλες τεχνολογίες συλλογής δεδομένων -- drones, κάμερες σώματος, συστήματα σήμανσης GPS και τεχνολογία θερμικής απεικόνισης
- Συνδυασμός αυτοματοποιημένης ανάκτησης δεδομένων με δεδομένα που λαμβάνονται από πληροφοριοδότες, ανάκριση και έρευνα
- Forecasting εγκληματική δραστηριότητα
Ημέρα 04
BI πρόληψης απάτης από το Big Data στο Fraud Analytics
- Βασική ταξινόμηση του Fraud Analytics -- βασισμένα σε κανόνες έναντι αναλυτικών προγνωστικών
- Εποπτευόμενη έναντι μη εποπτευόμενης Μηχανικής εκμάθησης για ανίχνευση μοτίβων απάτης
- Business για επιχειρηματική απάτη, απάτη ιατρικών αξιώσεων, ασφαλιστική απάτη, φοροδιαφυγή και ξέπλυμα βρώμικου χρήματος
Social Media Analytics -- Συγκέντρωση και ανάλυση πληροφοριών
- Πώς χρησιμοποιείται το Social Media από εγκληματίες για οργάνωση, στρατολόγηση και σχεδιασμό
- Big Data ETL API για την εξαγωγή δεδομένων μέσων κοινωνικής δικτύωσης
- Κείμενο, εικόνα, μεταδεδομένα και βίντεο
- Ανάλυση συναισθήματος από τη ροή των μέσων κοινωνικής δικτύωσης
- Συμφραζόμενο και μη συμφραζόμενο φιλτράρισμα της ροής των μέσων κοινωνικής δικτύωσης
- Social Media Πίνακας ελέγχου για την ενσωμάτωση ποικίλων μέσων κοινωνικής δικτύωσης
- Αυτοματοποιημένο προφίλ προφίλ στα μέσα κοινωνικής δικτύωσης
- Ζωντανή επίδειξη κάθε αναλυτικού στοιχείου θα δίνεται μέσω του Treeminer Tool
Big Data Αναλύσεις στην επεξεργασία εικόνας και ροές βίντεο
- Τεχνικές αποθήκευσης εικόνας στο Big Data -- Λύση αποθήκευσης για δεδομένα που υπερβαίνουν τα petabyte
- LTFS (Σύστημα αρχείων γραμμικής ταινίας) και LTO (γραμμική ταινία ανοιχτή)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) -- πολυεπίπεδη λύση αποθήκευσης για δεδομένα μεγάλων εικόνων
- Βασικές αρχές ανάλυσης εικόνας
- Αναγνώριση αντικειμένου
- Τμηματοποίηση εικόνας
- Παρακολούθηση κίνησης
- Τρισδιάστατη ανακατασκευή εικόνας
Bioμετρήσεις, DNA και προγράμματα ταυτοποίησης επόμενης γενιάς
- Πέρα από τα δακτυλικά αποτυπώματα και την αναγνώριση προσώπου
- Αναγνώριση ομιλίας, πληκτρολόγηση (αναλύοντας ένα μοτίβο πληκτρολόγησης χρηστών) και CODIS (συνδυασμένο σύστημα ευρετηρίου DNA)
- Πέρα από την αντιστοίχιση DNA: χρήση εγκληματολογικού φαινοτύπου DNA για την κατασκευή ενός προσώπου από δείγματα DNA
Big Data Ταμπλό για γρήγορη πρόσβαση σε διαφορετικά δεδομένα και οθόνη:
- Ενοποίηση υπάρχουσας πλατφόρμας εφαρμογών με Big Data Dashboard
- Big Data διαχείριση
- Μελέτη περίπτωσης Big Data Ταμπλό: Tableau και Pentaho
- Χρησιμοποιήστε την εφαρμογή Big Data για να προωθήσετε υπηρεσίες βάσει τοποθεσίας στο Govt.
- Σύστημα παρακολούθησης και διαχείρισης
Ημέρα 05
Πώς να δικαιολογήσετε την εφαρμογή Big Data BI σε έναν οργανισμό:
- Καθορισμός του ROI (Επιστροφή στο Investment) για την εφαρμογή του Big Data
- Μελέτες περίπτωσης για εξοικονόμηση χρόνου αναλυτή στη συλλογή και προετοιμασία Δεδομένων – αύξηση της παραγωγικότητας
- Κέρδος εσόδων από χαμηλότερο κόστος αδειοδότησης βάσης δεδομένων
- Κέρδος εσόδων από υπηρεσίες βάσει τοποθεσίας
- Εξοικονόμηση κόστους από την πρόληψη της απάτης
- Μια ολοκληρωμένη προσέγγιση υπολογιστικού φύλλου για τον υπολογισμό κατά προσέγγιση δαπανών έναντι κέρδους/εξοικονόμησης εσόδων από την εφαρμογή Big Data.
Βήμα προς βήμα διαδικασία για την αντικατάσταση ενός παλαιού συστήματος δεδομένων με ένα σύστημα Big Data
- Big Data Οδικός χάρτης μετανάστευσης
- Ποιες κρίσιμες πληροφορίες χρειάζονται πριν από την αρχιτεκτονική ενός συστήματος Big Data;
- Ποιοι είναι οι διαφορετικοί τρόποι υπολογισμού του όγκου, της ταχύτητας, της ποικιλίας και της ακρίβειας των δεδομένων
- Πώς να εκτιμήσετε την αύξηση των δεδομένων
- Μελέτες περιπτώσεων
Έλεγχος Big Data Προμηθευτών και αναθεώρηση των προϊόντων τους.
- Accenture
- APTEAN (Πρώην λογισμικό CDC)
- Cisco Συστήματα
- Cloudera
- Λαγκάδα
- EMC
- GoodData Corporation
- Γκουάβος
- Συστήματα Δεδομένων Hitachi
- Hortonworks
- ιπποδύναμη
- IBM
- Πληροφορική
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Πρώην 10Gen)
- MU Sigma
- Netapp
- Λύσεις Opera
- Oracle
- Pentaho
- Πλατφόρα
- Qliktech
- Ποσοστό
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Ινστιτούτο
- Sisense
- Λογισμικό AG/Terracotta
- Soft10 Αυτοματισμός
- Splunk
- Sqrrl
- Supermicro
- Tableau Λογισμικό
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Μέρος της EMC)
Συνεδρία Q/A
Απαιτήσεις
- Γνώση διαδικασιών επιβολής του νόμου και συστημάτων δεδομένων
- Βασική κατανόηση του SQL/Oracle ή σχεσιακής βάσης δεδομένων
- Βασική κατανόηση στατιστικών (σε επίπεδο υπολογιστικού φύλλου)
Ακροατήριο
- Ειδικοί επιβολής του νόμου με τεχνικό υπόβαθρο
Σχόλια (1)
Δύσκολα θέματα που παρουσιάζονται με απλό και χρήστη-φιλικό τρόπο
Marcin - GE Medical Systems Polska Sp. z o.o.
Κομμάτι - Introduction to Predictive AI
Μηχανική Μετάφραση