Course Outline

===== Ημέρα 01 ===== Επισκόπηση του Big Data Business Intelligence for Criminal Intelligence Analysis

    Μελέτες περιπτώσεων από την επιβολή του νόμου - Προγνωστική αστυνόμευση Ποσοστό υιοθέτησης μεγάλων δεδομένων στις υπηρεσίες επιβολής του νόμου και πώς ευθυγραμμίζουν τη μελλοντική τους λειτουργία γύρω από Big Data Predictive Analytics Αναδυόμενες τεχνολογικές λύσεις όπως αισθητήρες πυροβολισμών, βίντεο παρακολούθησης και μέσα κοινωνικής δικτύωσης Χρήση τεχνολογίας Big Data για τον μετριασμό των πληροφοριών υπερφόρτωση Διασύνδεση μεγάλων δεδομένων με δεδομένα παλαιού τύπου Βασική κατανόηση των τεχνολογιών ενεργοποίησης στην προγνωστική ανάλυση Ενσωμάτωση δεδομένων και οπτικοποίηση πίνακα ελέγχου Διαχείριση απάτης Επιχειρηματικοί κανόνες και ανίχνευση απάτης Ανίχνευση απειλών και δημιουργία προφίλ Ανάλυση κόστους οφέλους για την υλοποίηση μεγάλων δεδομένων

Εισαγωγή στο Big Data

    Κύρια χαρακτηριστικά των Big Data -- Όγκος, Ποικιλία, Ταχύτητα και Αλήθεια. Αρχιτεκτονική MPP (Massively Parallel Processing) Αποθήκες δεδομένων – στατικό σχήμα, αργά εξελισσόμενο σύνολο δεδομένων MPP Βάσεις δεδομένων: Greenplum, Exadata, Teradata, Netezza, Vertica κ.λπ. Λύσεις που βασίζονται στο Hadoop – δεν υπάρχουν προϋποθέσεις για τη δομή του συνόλου δεδομένων. Τυπικό μοτίβο : HDFS, MapReduce (crch), ανάκτηση από HDFS Apache Spark για επεξεργασία ροής Κατάλληλη παρτίδα για αναλυτικό/μη διαδραστικό Όγκος: Δεδομένα ροής CEP Τυπικές επιλογές – προϊόντα CEP (π.χ. Infostreams, Apama, MarkLogic κ.λπ.) Λιγότερο έτοιμη παραγωγή – Βάσεις δεδομένων Storm/S4 NoSQL – (στήλη και κλειδί-τιμή): Ταιριάζει καλύτερα ως αναλυτικό συμπλήρωμα σε αποθήκη δεδομένων/βάση δεδομένων

ΌχιSQL λύσεις

    KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB) KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB KV Store (Ιεραρχικό) - GT.m, Cache KV Store (TokyoTyr, Orderant) Lightcloud, NMDB, Luxio, MemcacheDB, Actord KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua Tuple Store - Gigaspaces, Coord, Apache River Object DatabaseB,Dlouch,Douch,DouchD0 , Couchbase, MongoDB, Jackrabbit, XML-Βάσεις δεδομένων, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Ποικιλίες Δεδομένων: Εισαγωγή στα Data Cleaning ζητήματα στα Μεγάλα Δεδομένα

    RDBMS – στατική δομή/σχήμα, δεν προωθεί ευέλικτο, εξερευνητικό περιβάλλον. ΌχιSQL – ημιδομημένη, αρκετή δομή για αποθήκευση δεδομένων χωρίς ακριβές σχήμα πριν από την αποθήκευση δεδομένων Ζητήματα καθαρισμού δεδομένων

Hadoop

    Πότε να επιλέξετε Hadoop; ΔΟΜΗΜΕΝΑ - Οι αποθήκες/βάσεις δεδομένων των επιχειρήσεων μπορούν να αποθηκεύσουν τεράστια δεδομένα (με κόστος), αλλά επιβάλλουν δομή (δεν είναι καλή για ενεργή εξερεύνηση) ΗΜΙΔΟΜΗΜΕΝΑ δεδομένα – δύσκολο να πραγματοποιηθούν με χρήση παραδοσιακών λύσεων (DW/DB) Δεδομένα αποθήκευσης = ΤΕΡΑΣΤΙΑ προσπάθεια και στατικά ακόμη μετά την υλοποίηση Για ποικιλία και όγκο δεδομένων, κομμένα στο υλικό βασικών προϊόντων – το HADOOP Commodity H/W απαιτείται για τη δημιουργία ενός Hadoop Cluster

Εισαγωγή στο Map Reduce /HDFS

    MapReduce – διανομή υπολογιστών σε πολλούς διακομιστές HDFS – καθιστούν τα δεδομένα διαθέσιμα τοπικά για τη διαδικασία υπολογισμού (με πλεονασμό) Δεδομένα – μπορεί να είναι αδόμητα/χωρίς σχήματα (σε αντίθεση με το RDBMS) Ευθύνη προγραμματιστή για την κατανόηση των δεδομένων Programming MapReduce = εργασία με Java ( πλεονεκτήματα/μειονεκτήματα), μη αυτόματη φόρτωση δεδομένων στο HDFS

===== Ημέρα 02 ===== Big Data Οικοσύστημα -- Κτίριο Big Data ETL (Εξαγωγή, Μετασχηματισμός, Φόρτωση) -- Ποια Big Data Εργαλεία να χρησιμοποιηθούν και πότε;

    Hadoop εναντίον άλλων λύσεων NoSQL Για διαδραστική, τυχαία πρόσβαση σε δεδομένα Hbase (βάση δεδομένων προσανατολισμένη στη στήλη) πάνω από το Hadoop Τυχαία πρόσβαση στα δεδομένα αλλά επιβάλλονται περιορισμοί (μέγιστο 1 PB) Δεν είναι καλό για ad-hoc αναλυτικά στοιχεία, καλό για καταγραφή, καταμέτρηση, χρονοσειρές Sqoop - Εισαγωγή από βάσεις δεδομένων σε Hive ή HDFS (πρόσβαση JDBC/ODBC) Flume – Ροή δεδομένων (π.χ. δεδομένα καταγραφής) σε HDFS

Big Data Management Σύστημα

    Κινούμενα μέρη, υπολογιστικοί κόμβοι εκκίνηση/αποτυχία :ZooKeeper - Για υπηρεσίες διαμόρφωσης/συντονισμού/ονομασίας Σύνθετη γραμμή αγωγών/ροής εργασίας: Oozie – διαχείριση ροής εργασιών, εξαρτήσεων, αλυσίδας μαργαρίτας Ανάπτυξη, διαμόρφωση, διαχείριση συμπλέγματος, αναβάθμιση κ.λπ. (διαχειριστής sys) :Ambari στο Cloud: Βόμβος

Predictive Analytics -- Θεμελιώδεις τεχνικές και Business Intelligence που βασίζεται στη μηχανική μάθηση

    Εισαγωγή στις τεχνικές ταξινόμησης μηχανικής μάθησης Μπεϋζιανή πρόβλεψη -- προετοιμασία αρχείου εκπαίδευσης Υποστήριξη διανυσματική μηχανή KNN p-Tree Άλγεβρα & κάθετη εξόρυξη νευρωνικά δίκτυα Μεγάλη μεταβλητή πρόβλημα μεγάλων δεδομένων -- Πρόβλημα αυτοματισμού μεγάλων δεδομένων τυχαίου δάσους (RF) - Σύνολο πολλαπλών μοντέλων RF Αυτοματοποίηση μέσω του εργαλείου ανάλυσης κειμένου Soft10-M-Treeminer Agile Learning Μάθηση με βάση τον παράγοντα Κατανεμημένη μάθηση Εισαγωγή στα Εργαλεία ανοιχτού κώδικα για προγνωστικά αναλυτικά στοιχεία: R, Python, Rapidminer, Mahut

Predictive Analytics Το Οικοσύστημα και η εφαρμογή του στην Ανάλυση Εγκληματικής Νοημοσύνης

    Τεχνολογία και διαδικασία διερεύνησης Insight analytic Visualization analytics Δομημένη προγνωστική ανάλυση Unstructured predictive analytics Προφίλ απειλών/απατεώνων/προμηθευτών Σύσταση Ανίχνευσης προτύπων κινητήρα Κανόνας/ανακάλυψη σεναρίου – αποτυχία, απάτη, βελτιστοποίηση Ανακάλυψη ρίζας Ανάλυση συναισθημάτων CRM analytics analytics μεταγραφές, καταθέσεις μαρτύρων, κουβέντα στο Διαδίκτυο κ.λπ. Έλεγχος με τη βοήθεια τεχνολογίας Αναλύσεις απάτης Αναλυτικό σε πραγματικό χρόνο

===== Ημέρα 03 ===== Σε πραγματικό χρόνο και Scalable Analytics Over Hadoop

    Γιατί αποτυγχάνουν οι συνηθισμένοι αναλυτικοί αλγόριθμοι στο Hadoop/HDFS Apache Hama- για μαζική συγχρονισμένη κατανεμημένη υπολογιστική Apache SPARK- για υπολογιστές συμπλέγματος και ανάλυση σε πραγματικό χρόνο CMU Graphics Lab2- Ασύγχρονη προσέγγιση βάσει γραφήματος στην κατανεμημένη υπολογιστική προσέγγιση KNN p -- Algebra based προσέγγιση από μειωμένο κόστος λειτουργίας υλικού

Εργαλεία για eDiscovery και Forensics

    eDiscovery over Big Data έναντι δεδομένων παλαιού τύπου – σύγκριση κόστους και απόδοσης Προγνωστική κωδικοποίηση και αναθεώρηση υποβοηθούμενη από τεχνολογία (TAR) Ζωντανή επίδειξη του vMiner για να κατανοήσετε πώς το TAR επιτρέπει ταχύτερη ανακάλυψη Ταχύτερη ευρετηρίαση μέσω HDFS – Ταχύτητα δεδομένων NLP (επεξεργασία φυσικής γλώσσας) – προϊόντα και τεχνικές ανοιχτού κώδικα eDiscovery σε ξένες γλώσσες -- τεχνολογία επεξεργασίας ξένων γλωσσών

Big Data BI for Cyber Security – Λήψη προβολής 360 μοιρών, γρήγορη συλλογή δεδομένων και αναγνώριση απειλών

    Κατανόηση των βασικών στοιχείων της ανάλυσης ασφαλείας -- επιφάνεια επίθεσης, εσφαλμένη διαμόρφωση ασφαλείας, άμυνες κεντρικού υπολογιστή Υποδομή δικτύου / Μεγάλος σωλήνας δεδομένων / Απόκριση ETL για ανάλυση σε πραγματικό χρόνο Προδιαγραφική έναντι πρόβλεψης – Διορθωμένοι κανόνες βάσει κανόνων έναντι αυτόματης ανακάλυψης κανόνων απειλής από μεταδεδομένα

Συλλογή ανόμοιων δεδομένων για την ανάλυση εγκληματικών πληροφοριών

    Χρήση IoT (Internet of Things) ως αισθητήρων για τη λήψη δεδομένων Χρήση δορυφορικών εικόνων για οικιακή επιτήρηση Χρήση δεδομένων παρακολούθησης και εικόνας για εγκληματική ταυτοποίηση Άλλες τεχνολογίες συλλογής δεδομένων -- drones, κάμερες σώματος, συστήματα σήμανσης GPS και τεχνολογία θερμικής απεικόνισης Συνδυασμός αυτοματοποιημένης ανάκτησης δεδομένων με δεδομένα προέρχονται από πληροφοριοδότες, ανάκριση και έρευνα Forecasting εγκληματικής δραστηριότητας

===== Ημέρα 04 ===== BI πρόληψης απάτης από το Big Data στο Fraud Analytics

    Βασική ταξινόμηση του Fraud Analytics -- βασισμένα σε κανόνες έναντι προγνωστικών αναλύσεων Εποπτευόμενη έναντι μη εποπτευόμενης Μηχανική εκμάθηση για ανίχνευση προτύπων απάτης Business σε επιχειρηματική απάτη, απάτη ιατρικών αξιώσεων, ασφαλιστική απάτη, φοροδιαφυγή και ξέπλυμα βρώμικου χρήματος

Social Media Analytics -- Συγκέντρωση και ανάλυση πληροφοριών

    Πώς χρησιμοποιείται το Social Media από εγκληματίες για την οργάνωση, τη στρατολόγηση και τον σχεδιασμό Big Data ETL API για την εξαγωγή δεδομένων μέσων κοινωνικής δικτύωσης Κείμενο, εικόνα, μεταδεδομένα και βίντεο Ανάλυση συναισθήματος από τη ροή των μέσων κοινωνικής δικτύωσης Φιλτράρισμα με βάση τα συμφραζόμενα και χωρίς συμφραζόμενα της ροής των μέσων κοινωνικής δικτύωσης Social Media Πίνακας ελέγχου για την ενσωμάτωση διαφορετικών μέσων κοινωνικής δικτύωσης Αυτοματοποιημένο προφίλ προφίλ κοινωνικών μέσων Η ζωντανή επίδειξη κάθε αναλυτικού στοιχείου θα παρέχεται μέσω του Treeminer Tool

Big Data Αναλύσεις στην επεξεργασία εικόνας και ροές βίντεο

    Τεχνικές αποθήκευσης εικόνας στο Big Data -- Λύση αποθήκευσης για δεδομένα που υπερβαίνουν τα petabyte LTFS (Σύστημα Γραμμικής Ταινίας) και LTO (Γραμμική Ταινία Ανοικτό) GPFS-LTFS (Γενικό Παράλληλο Σύστημα Αρχείων - Γραμμικό Σύστημα Αρχείων Ταινίας) -- Λύση αποθήκευσης σε επίπεδα για Big δεδομένα εικόνας Βασικές αρχές ανάλυσης εικόνας Αναγνώριση αντικειμένων Τμηματοποίηση εικόνας Παρακολούθηση κίνησης Ανακατασκευή 3-D εικόνας

Bioμετρήσεις, DNA και προγράμματα ταυτοποίησης επόμενης γενιάς

    Πέρα από τη λήψη δακτυλικών αποτυπωμάτων και την αναγνώριση προσώπου Αναγνώριση ομιλίας, πληκτρολόγηση (αναλύοντας ένα μοτίβο πληκτρολόγησης χρηστών) και CODIS (συνδυασμένο σύστημα ευρετηρίου DNA) Πέρα από την αντιστοίχιση DNA: χρήση εγκληματολογικού φαινοτύπου DNA για την κατασκευή ενός προσώπου από δείγματα DNA

Big Data Ταμπλό για γρήγορη πρόσβαση σε διαφορετικά δεδομένα και οθόνη:

    Ενσωμάτωση της υπάρχουσας πλατφόρμας εφαρμογών με Big Data Dashboard Διαχείριση Μεγάλων Δεδομένων Μελέτη περίπτωσης Big Data Dashboard: Tableau και Pentaho Χρησιμοποιήστε την εφαρμογή Big Data για να προωθήσετε υπηρεσίες που βασίζονται στην τοποθεσία στο Govt. Σύστημα παρακολούθησης και διαχείρισης

===== Ημέρα 05 ===== Πώς να δικαιολογήσετε την εφαρμογή Big Data BI σε έναν οργανισμό:

    Καθορισμός της απόδοσης επένδυσης (Return on Investment) για την εφαρμογή Μελέτες περίπτωσης Big Data για εξοικονόμηση χρόνου αναλυτή στη συλλογή και προετοιμασία δεδομένων – αύξηση της παραγωγικότητας Κέρδος εσόδων από χαμηλότερο κόστος αδειοδότησης βάσης δεδομένων Κέρδος εσόδων από υπηρεσίες βάσει τοποθεσίας Εξοικονόμηση κόστους από την πρόληψη απάτης Ένα ολοκληρωμένο υπολογιστικό φύλλο προσέγγιση για τον υπολογισμό κατά προσέγγιση εξόδων έναντι κέρδους/εξοικονόμησης εσόδων από την υλοποίηση Big Data.

Βήμα προς βήμα διαδικασία για την αντικατάσταση ενός παλαιού συστήματος δεδομένων με ένα σύστημα Big Data

    Big Data Οδικός χάρτης μετανάστευσης Ποιες κρίσιμες πληροφορίες χρειάζονται πριν από την αρχιτεκτονική ενός συστήματος Big Data; Ποιοι είναι οι διαφορετικοί τρόποι για τον υπολογισμό του όγκου, της ταχύτητας, της ποικιλίας και της ακρίβειας των δεδομένων Πώς να εκτιμήσετε την αύξηση των δεδομένων Μελέτες περιπτώσεων

Έλεγχος Big Data Προμηθευτών και αναθεώρηση των προϊόντων τους.

    Accenture APTEAN (Πρώην Λογισμικό CDC) Συστήματα Cisco Cloudera Dell EMC GoodData Corporation Guavus Hitachi Data Systems Hortonworks HP IBM Informatica Intel Jaspersoft Microsoft MongoDB (Πρώην 10Gen) MU Sigma Netapp Λύσεις Opera Solutions Oracle Qforpatech Analytics AP Software AG /Terracotta Soft10 Automation Splunk Sqrrl Supermicro Tableau Software Teradata Think Big Analytics Tidemark Systems Treeminer VMware (Μέρος του EMC)

Συνεδρία Q/A

Requirements

  • Γνώση διαδικασιών επιβολής του νόμου και συστημάτων δεδομένων
  • Βασική κατανόηση του SQL/Oracle ή σχεσιακής βάσης δεδομένων
  • Βασική κατανόηση στατιστικών (σε επίπεδο υπολογιστικού φύλλου)
  35 Hours

Number of participants


Starts

Ends


Dates are subject to availability and take place between 09:30 and 16:30.

Price per participant

Testimonials (4)

Related Courses

Data Analysis with Redash

  14 Hours

Business Intelligence and Data Analysis with Metabase

  14 Hours

Related Categories