Plan du cours
Jour 01
Vue d'ensemble de Big Data Business Intelligence pour l'analyse du renseignement criminel
- Études de cas dans le domaine de l'application de la loi - Police prédictive
- Le taux d'adoption de la Big Data dans les agences d'application de la loi et la façon dont elles alignent leurs futures opérations sur la Big Data Predictive Analytics
- Solutions technologiques émergentes telles que les détecteurs de coups de feu, la vidéo de surveillance et les médias sociaux
- L'utilisation de la technologie Big Data pour atténuer la surcharge d'informations
- Interfacer Big Data avec les données existantes
- Compréhension de base des technologies habilitantes dans le domaine de l'analyse prédictive
- [Visualisation des tableaux de bord
- Gestion de la fraude
- Business Rules et détection des fraudes
- Détection des menaces et profilage
- Analyse coût-bénéfice pour la mise en œuvre de Big Data.
Introduction à Big Data
- Principales caractéristiques de Big Data : volume, variété, rapidité et véracité.
- Architecture MPP (traitement massivement parallèle)
- Data Warehouses - schéma statique, ensemble de données à évolution lente
- MPP Database : Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
- Solutions basées sur Hadoop - aucune condition sur la structure de l'ensemble de données.
- Modèle type : HDFS, MapReduce (crunch), récupération à partir de HDFS
- Apache Spark pour le traitement en flux
- Batch - adapté au traitement analytique/non interactif
- Volume : Données en continu de la CEP
- Choix typiques - produits CEP (par exemple Infostreams, Apama, MarkLogic, etc.)
- Moins prêts pour la production - Storm/S4
- (809] Databases - (en colonnes et clé-valeur) : Convient mieux comme complément analytique à l'entrepôt de données/à la base de données
Solutions NoSQL
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (Hiérarchique) - GT.m, Cache
- KV Store (ordonné) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Objet Database - ZopeDB, DB40, Shoal
- Magasin de documents - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variétés de données : Introduction à Data Cleaning questions dans Big Data
- SGBDR - structure statique/schéma, ne favorise pas un environnement agile et exploratoire.
- SGBDR NoSQL - semi-structuré, suffisamment de structure pour stocker les données sans schéma exact avant le stockage des données
- Questions relatives au nettoyage des données
Hadoop
- Quand choisir Hadoop ?
- STRUCTURÉ - Les entrepôts de données/bases de données d'entreprise peuvent stocker des données massives (à un certain coût) mais imposent une structure (ce qui n'est pas bon pour l'exploration active).
- Données SEMI STRUCTURÉES - difficiles à réaliser à l'aide de solutions traditionnelles (DW/DB)
- Entreposage de données = effort énorme et statique même après la mise en œuvre
- Pour la variété et le volume des données, il est nécessaire d'utiliser du matériel de base - HADOOP
- Matériel de base nécessaire pour créer un Hadoop cluster
Introduction à Map Reduce /HDFS
- MapReduce - répartir les calculs sur plusieurs serveurs
- HDFS - rend les données disponibles localement pour le processus de calcul (avec redondance)
- Données - peuvent être non structurées/sans schéma (contrairement aux SGBDR)
- La responsabilité du développeur est de donner un sens aux données
- [MapReduce = travailler avec Java (avantages/conséquences), charger manuellement les données dans HDFS
Jour 02
Big Data Ecosystème -- Construire Big Data ETL (Extract, Transform, Load) -- Quels Big Data outils utiliser et quand ?
- Solutions Hadoop vs. autres NoSQL solutions
- Pour un accès interactif et aléatoire aux données
- Hbase (base de données orientée colonnes) sur Hadoop
- Accès aléatoire aux données mais restrictions imposées (max. 1 PB)
- Ne convient pas à l'analyse ad hoc, mais bien à l'enregistrement, au comptage et aux séries chronologiques.
- Sqoop - Importation à partir de bases de données vers Hive ou HDFS (accès JDBC/ODBC)
- Flume - Flux de données (par exemple, données de journalisation) dans HDFS
Big Data Management Système
- Pièces mobiles, démarrage/échec des nœuds de calcul :ZooKeeper - Pour les services de configuration/coordination/nommage
- Pipeline/flux de travail complexe : Oozie - gestion du flux de travail, des dépendances, de la chaîne des marguerites
- Déploiement, configuration, gestion des clusters, mise à niveau, etc. (administrateur système) :Ambari
- Dans le nuage : Whirr
Predictive Analytics -- Techniques fondamentales et intelligence Business basée sur Machine Learning
- Introduction à Machine Learning
- Apprentissage des techniques de classification
- Prédiction bayésienne -- préparation d'un fichier d'entraînement
- Machine à vecteur de support
- KNN p-Tree Algebra & vertical mining
- Neural Networks
- Big Data problème des grandes variables -- Random forest (RF)
- Big Data Problème d'automatisation - ensemble multi-modèle RF
- Automatisation par Soft10-M
- Outil d'analyse de texte - Treeminer
- Agile apprentissage
- Apprentissage basé sur des agents
- Apprentissage distribué
- Introduction aux outils open source pour l'analyse prédictive : R, Python, Rapidminer, Mahut
[L'écosystème et son application à l'analyse du renseignement criminel
- Technologie et processus d'enquête
- Analyse de l'information
- Analyse de visualisation
- Analyse prédictive structurée
- Analyse prédictive non structurée
- Profilage des menaces/fraudeurs/fournisseurs
- Moteur de recommandation
- Détection de modèles
- Découverte de règles/scénarios - échec, fraude, optimisation
- Découverte des causes profondes
- Analyse des sentiments
- Analyse CRM
- Analyse de réseau
- Analyse de texte pour obtenir des informations à partir de transcriptions, de déclarations de témoins, de conversations sur Internet, etc.
- Examen assisté par la technologie
- Analyse de la fraude
- Analyse en temps réel
Jour 03
Analyse en temps réel et Scalable sur Hadoop
- Pourquoi les algorithmes analytiques courants échouent dans Hadoop/HDFS
- Apache Hama - pour le calcul distribué synchrone en masse
- Apache SPARK - pour le calcul en grappe et l'analyse en temps réel
- CMU Graphics Lab2 - Approche asynchrone basée sur les graphes pour le calcul distribué
- KNN p -- Approche basée sur l'algèbre de Treeminer pour réduire le coût d'exploitation du matériel.
Outils pour l'eDiscovery et la criminalistique
- eDiscovery sur Big Data vs. Legacy data - une comparaison des coûts et des performances
- Codage prédictif et révision assistée par la technologie (TAR)
- Démonstration en direct de vMiner pour comprendre comment la TAR permet une découverte plus rapide
- Indexation plus rapide grâce à HDFS - Vélocité des données
- NLP (Natural Language processing) - produits et techniques open source
- eDiscovery en langues étrangères - technologie pour le traitement des langues étrangères
[BI pour Cyber Security - Obtenir une vue à 360 degrés, accélérer la collecte des données et l'identification des menaces
- Comprendre les bases de l'analyse de la sécurité -- surface d'attaque, mauvaise configuration de la sécurité, défenses de l'hôte
- Infrastructure réseau / Grandes données / Réponse ETL pour l'analyse en temps réel
- Prescription vs prédiction - règles fixes vs découverte automatique de règles de menaces à partir de métadonnées
Collecte de données disparates pour l'analyse du renseignement criminel
- Utilisation de l'IoT (Internet des objets) comme capteurs pour la capture de données
- Utilisation de l'imagerie satellitaire pour la surveillance intérieure
- Utilisation de données de surveillance et d'images pour l'identification des criminels
- Autres technologies de collecte de données - drones, caméras corporelles, systèmes de marquage GPS et technologie d'imagerie thermique
- Combinaison de la recherche automatisée de données avec les données obtenues à partir d'informateurs, d'interrogatoires et de recherches
- Forecasting activité criminelle
Jour 04
Prévention de la fraude BI de Big Data dans l'analyse de la fraude
- Classification de base de l'analyse des fraudes - analyse basée sur des règles ou analyse prédictive
- Apprentissage automatique supervisé ou non supervisé pour la détection des schémas de fraude
- L'apprentissage automatique pour la détection des schémas de fraude Business à la fraude commerciale, à la fraude médicale, à la fraude à l'assurance, à l'évasion fiscale et au blanchiment d'argent
Social Media Analyse -- Collecte et analyse de renseignements
- Comment Social Media est utilisé par les criminels pour organiser, recruter et planifier.
- Big Data ETL API pour l'extraction de données de médias sociaux
- Texte, image, métadonnées et vidéo
- Analyse des sentiments à partir des flux de médias sociaux
- Filtrage contextuel et non contextuel des flux de médias sociaux
- [Tableau de bord pour intégrer divers médias sociaux
- Profilage automatisé du profil des médias sociaux
- Des démonstrations en direct de chaque outil d'analyse seront effectuées à l'aide de l'outil Treeminer.
Big Data Analyse du traitement des images et des flux vidéo
- Techniques de stockage d'images Big Data -- Solution de stockage pour les données dépassant les pétaoctets
- LTFS (Linear Tape File System) et LTO (Linear Tape Open)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) -- solution de stockage en couches pour les données d'images volumineuses.
- Principes fondamentaux de l'analyse d'images
- Reconnaissance d'objets
- Segmentation d'images
- Suivi des mouvements
- Reconstruction d'images en 3D
BioMétriques, ADN et programmes d'identification de nouvelle génération
- Au-delà des empreintes digitales et de la reconnaissance faciale
- Reconnaissance de la parole, de la frappe (analyse de la frappe d'un utilisateur) et CODIS (système de fichier combiné des empreintes génétiques)
- Au-delà de la comparaison avec l'ADN : utilisation du phénotypage de l'ADN en médecine légale pour construire un visage à partir d'échantillons d'ADN.
Big Data Tableau de bord pour un accès rapide aux diverses données et à l'affichage :
- Intégration d'une plate-forme d'application existante avec Big Data Dashboard
- Gestion du Big Data Tableau de bord
- Étude de cas du tableau de bord Big Data : Tableau et Pentaho
- Utilisation de l'application Big Data pour pousser des services basés sur la localisation dans Govt.
- Système de suivi et gestion
Jour 05
Comment justifier l'implémentation de Big Data BI au sein d'une organisation :
- Définir le ROI (Return on Investment) pour l'implémentation de la Big Data BI.
- Etudes de cas pour économiser le temps de l'analyste dans la collecte et la préparation des données - augmenter la productivité
- Gain de revenus grâce à la réduction des coûts de licence des bases de données
- Gain de revenus grâce aux services de géolocalisation
- Économies de coûts grâce à la prévention de la fraude
- Une approche intégrée à l'aide d'un tableur pour calculer les dépenses approximatives par rapport aux gains/économies de revenus résultant de la mise en œuvre de la norme Big Data.
Procédure étape par étape pour remplacer un système de données existant par un système Big Data.
- Feuille de route de la migration Big Data
- Quelles sont les informations essentielles nécessaires à l'élaboration d'un système Big Data ?
- Quelles sont les différentes façons de calculer le volume, la vitesse, la variété et la véracité des données ?
- Comment estimer la croissance des données ?
- Études de cas
Examen des fournisseurs de Big Data et de leurs produits.
- Accenture
- APTEAN (anciennement CDC Software)
- Systèmes Cisco
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (anciennement 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institut
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Logiciels
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Partie d'EMC)
Session de questions/réponses
Pré requis
- Connaissance des processus et des systèmes de données relatifs à l'application de la loi
- Compréhension de base des bases de données SQL/Oracle ou relationnelles
- Compréhension de base des statistiques (au niveau d'une feuille de calcul)
Public
- Spécialistes de l'application de la loi ayant une formation technique
Nos clients témoignent (2)
Deepthi était très à l'écoute de mes besoins, elle savait quand ajouter des couches de complexité et quand se retenir et adopter une approche plus structurée. Deepthi a vraiment travaillé à mon rythme et s'est assurée que j'étais capable d'utiliser les nouvelles fonctions/outils moi-même en me montrant d'abord puis en me laissant recréer les éléments moi-même, ce qui a vraiment aidé à intégrer la formation. Je ne pourrais pas être plus satisfait des résultats de cette formation et du niveau d'expertise de Deepthi !
Deepthi - Invest Northern Ireland
Formation - IBM Cognos Analytics
Traduction automatique
La diversité des sujets abordés