Plan du cours

Jour 01

Vue d'ensemble de Big Data Business Intelligence pour l'analyse du renseignement criminel

  • Études de cas dans le domaine de l'application de la loi - Police prédictive
  • Le taux d'adoption de la Big Data dans les agences d'application de la loi et la façon dont elles alignent leurs futures opérations sur la Big Data Predictive Analytics
  • Solutions technologiques émergentes telles que les détecteurs de coups de feu, la vidéo de surveillance et les médias sociaux
  • L'utilisation de la technologie Big Data pour atténuer la surcharge d'informations
  • Interfacer Big Data avec les données existantes
  • Compréhension de base des technologies habilitantes dans le domaine de l'analyse prédictive
  • [Visualisation des tableaux de bord
  • Gestion de la fraude
  • Business Rules et détection des fraudes
  • Détection des menaces et profilage
  • Analyse coût-bénéfice pour la mise en œuvre de Big Data.

Introduction à Big Data

  • Principales caractéristiques de Big Data : volume, variété, rapidité et véracité.
  • Architecture MPP (traitement massivement parallèle)
  • Data Warehouses - schéma statique, ensemble de données à évolution lente
  • MPP Database : Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
  • Solutions basées sur Hadoop - aucune condition sur la structure de l'ensemble de données.
  • Modèle type : HDFS, MapReduce (crunch), récupération à partir de HDFS
  • Apache Spark pour le traitement en flux
  • Batch - adapté au traitement analytique/non interactif
  • Volume : Données en continu de la CEP
  • Choix typiques - produits CEP (par exemple Infostreams, Apama, MarkLogic, etc.)
  • Moins prêts pour la production - Storm/S4
  • (809] Databases - (en colonnes et clé-valeur) : Convient mieux comme complément analytique à l'entrepôt de données/à la base de données

Solutions NoSQL

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (Hiérarchique) - GT.m, Cache
  • KV Store (ordonné) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Objet Database - ZopeDB, DB40, Shoal
  • Magasin de documents - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variétés de données : Introduction à Data Cleaning questions dans Big Data

  • SGBDR - structure statique/schéma, ne favorise pas un environnement agile et exploratoire.
  • SGBDR NoSQL - semi-structuré, suffisamment de structure pour stocker les données sans schéma exact avant le stockage des données
  • Questions relatives au nettoyage des données

Hadoop

  • Quand choisir Hadoop ?
  • STRUCTURÉ - Les entrepôts de données/bases de données d'entreprise peuvent stocker des données massives (à un certain coût) mais imposent une structure (ce qui n'est pas bon pour l'exploration active).
  • Données SEMI STRUCTURÉES - difficiles à réaliser à l'aide de solutions traditionnelles (DW/DB)
  • Entreposage de données = effort énorme et statique même après la mise en œuvre
  • Pour la variété et le volume des données, il est nécessaire d'utiliser du matériel de base - HADOOP
  • Matériel de base nécessaire pour créer un Hadoop cluster

Introduction à Map Reduce /HDFS

  • MapReduce - répartir les calculs sur plusieurs serveurs
  • HDFS - rend les données disponibles localement pour le processus de calcul (avec redondance)
  • Données - peuvent être non structurées/sans schéma (contrairement aux SGBDR)
  • La responsabilité du développeur est de donner un sens aux données
  • [MapReduce = travailler avec Java (avantages/conséquences), charger manuellement les données dans HDFS

Jour 02

Big Data Ecosystème -- Construire Big Data ETL (Extract, Transform, Load) -- Quels Big Data outils utiliser et quand ?

  • Solutions Hadoop vs. autres NoSQL solutions
  • Pour un accès interactif et aléatoire aux données
  • Hbase (base de données orientée colonnes) sur Hadoop
  • Accès aléatoire aux données mais restrictions imposées (max. 1 PB)
  • Ne convient pas à l'analyse ad hoc, mais bien à l'enregistrement, au comptage et aux séries chronologiques.
  • Sqoop - Importation à partir de bases de données vers Hive ou HDFS (accès JDBC/ODBC)
  • Flume - Flux de données (par exemple, données de journalisation) dans HDFS

Big Data Management Système

  • Pièces mobiles, démarrage/échec des nœuds de calcul :ZooKeeper - Pour les services de configuration/coordination/nommage
  • Pipeline/flux de travail complexe : Oozie - gestion du flux de travail, des dépendances, de la chaîne des marguerites
  • Déploiement, configuration, gestion des clusters, mise à niveau, etc. (administrateur système) :Ambari
  • Dans le nuage : Whirr

Predictive Analytics -- Techniques fondamentales et intelligence Business basée sur Machine Learning

  • Introduction à Machine Learning
  • Apprentissage des techniques de classification
  • Prédiction bayésienne -- préparation d'un fichier d'entraînement
  • Machine à vecteur de support
  • KNN p-Tree Algebra & vertical mining
  • Neural Networks
  • Big Data problème des grandes variables -- Random forest (RF)
  • Big Data Problème d'automatisation - ensemble multi-modèle RF
  • Automatisation par Soft10-M
  • Outil d'analyse de texte - Treeminer
  • Agile apprentissage
  • Apprentissage basé sur des agents
  • Apprentissage distribué
  • Introduction aux outils open source pour l'analyse prédictive : R, Python, Rapidminer, Mahut

[L'écosystème et son application à l'analyse du renseignement criminel

  • Technologie et processus d'enquête
  • Analyse de l'information
  • Analyse de visualisation
  • Analyse prédictive structurée
  • Analyse prédictive non structurée
  • Profilage des menaces/fraudeurs/fournisseurs
  • Moteur de recommandation
  • Détection de modèles
  • Découverte de règles/scénarios - échec, fraude, optimisation
  • Découverte des causes profondes
  • Analyse des sentiments
  • Analyse CRM
  • Analyse de réseau
  • Analyse de texte pour obtenir des informations à partir de transcriptions, de déclarations de témoins, de conversations sur Internet, etc.
  • Examen assisté par la technologie
  • Analyse de la fraude
  • Analyse en temps réel

Jour 03

Analyse en temps réel et Scalable sur Hadoop

  • Pourquoi les algorithmes analytiques courants échouent dans Hadoop/HDFS
  • Apache Hama - pour le calcul distribué synchrone en masse
  • Apache SPARK - pour le calcul en grappe et l'analyse en temps réel
  • CMU Graphics Lab2 - Approche asynchrone basée sur les graphes pour le calcul distribué
  • KNN p -- Approche basée sur l'algèbre de Treeminer pour réduire le coût d'exploitation du matériel.

Outils pour l'eDiscovery et la criminalistique

  • eDiscovery sur Big Data vs. Legacy data - une comparaison des coûts et des performances
  • Codage prédictif et révision assistée par la technologie (TAR)
  • Démonstration en direct de vMiner pour comprendre comment la TAR permet une découverte plus rapide
  • Indexation plus rapide grâce à HDFS - Vélocité des données
  • NLP (Natural Language processing) - produits et techniques open source
  • eDiscovery en langues étrangères - technologie pour le traitement des langues étrangères

[BI pour Cyber Security - Obtenir une vue à 360 degrés, accélérer la collecte des données et l'identification des menaces

  • Comprendre les bases de l'analyse de la sécurité -- surface d'attaque, mauvaise configuration de la sécurité, défenses de l'hôte
  • Infrastructure réseau / Grandes données / Réponse ETL pour l'analyse en temps réel
  • Prescription vs prédiction - règles fixes vs découverte automatique de règles de menaces à partir de métadonnées

Collecte de données disparates pour l'analyse du renseignement criminel

  • Utilisation de l'IoT (Internet des objets) comme capteurs pour la capture de données
  • Utilisation de l'imagerie satellitaire pour la surveillance intérieure
  • Utilisation de données de surveillance et d'images pour l'identification des criminels
  • Autres technologies de collecte de données - drones, caméras corporelles, systèmes de marquage GPS et technologie d'imagerie thermique
  • Combinaison de la recherche automatisée de données avec les données obtenues à partir d'informateurs, d'interrogatoires et de recherches
  • Forecasting activité criminelle

Jour 04

Prévention de la fraude BI de Big Data dans l'analyse de la fraude

  • Classification de base de l'analyse des fraudes - analyse basée sur des règles ou analyse prédictive
  • Apprentissage automatique supervisé ou non supervisé pour la détection des schémas de fraude
  • L'apprentissage automatique pour la détection des schémas de fraude Business à la fraude commerciale, à la fraude médicale, à la fraude à l'assurance, à l'évasion fiscale et au blanchiment d'argent

Social Media Analyse -- Collecte et analyse de renseignements

  • Comment Social Media est utilisé par les criminels pour organiser, recruter et planifier.
  • Big Data ETL API pour l'extraction de données de médias sociaux
  • Texte, image, métadonnées et vidéo
  • Analyse des sentiments à partir des flux de médias sociaux
  • Filtrage contextuel et non contextuel des flux de médias sociaux
  • [Tableau de bord pour intégrer divers médias sociaux
  • Profilage automatisé du profil des médias sociaux
  • Des démonstrations en direct de chaque outil d'analyse seront effectuées à l'aide de l'outil Treeminer.

Big Data Analyse du traitement des images et des flux vidéo

  • Techniques de stockage d'images Big Data -- Solution de stockage pour les données dépassant les pétaoctets
  • LTFS (Linear Tape File System) et LTO (Linear Tape Open)
  • GPFS-LTFS (General Parallel File System - Linear Tape File System) -- solution de stockage en couches pour les données d'images volumineuses.
  • Principes fondamentaux de l'analyse d'images
  • Reconnaissance d'objets
  • Segmentation d'images
  • Suivi des mouvements
  • Reconstruction d'images en 3D

BioMétriques, ADN et programmes d'identification de nouvelle génération

  • Au-delà des empreintes digitales et de la reconnaissance faciale
  • Reconnaissance de la parole, de la frappe (analyse de la frappe d'un utilisateur) et CODIS (système de fichier combiné des empreintes génétiques)
  • Au-delà de la comparaison avec l'ADN : utilisation du phénotypage de l'ADN en médecine légale pour construire un visage à partir d'échantillons d'ADN.

Big Data Tableau de bord pour un accès rapide aux diverses données et à l'affichage :

  • Intégration d'une plate-forme d'application existante avec Big Data Dashboard
  • Gestion du Big Data Tableau de bord
  • Étude de cas du tableau de bord Big Data : Tableau et Pentaho
  • Utilisation de l'application Big Data pour pousser des services basés sur la localisation dans Govt.
  • Système de suivi et gestion

Jour 05

Comment justifier l'implémentation de Big Data BI au sein d'une organisation :

  • Définir le ROI (Return on Investment) pour l'implémentation de la Big Data BI.
  • Etudes de cas pour économiser le temps de l'analyste dans la collecte et la préparation des données - augmenter la productivité
  • Gain de revenus grâce à la réduction des coûts de licence des bases de données
  • Gain de revenus grâce aux services de géolocalisation
  • Économies de coûts grâce à la prévention de la fraude
  • Une approche intégrée à l'aide d'un tableur pour calculer les dépenses approximatives par rapport aux gains/économies de revenus résultant de la mise en œuvre de la norme Big Data.

Procédure étape par étape pour remplacer un système de données existant par un système Big Data.

  • Feuille de route de la migration Big Data
  • Quelles sont les informations essentielles nécessaires à l'élaboration d'un système Big Data ?
  • Quelles sont les différentes façons de calculer le volume, la vitesse, la variété et la véracité des données ?
  • Comment estimer la croissance des données ?
  • Études de cas

Examen des fournisseurs de Big Data et de leurs produits.

  • Accenture
  • APTEAN (anciennement CDC Software)
  • Systèmes Cisco
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (anciennement 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institut
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Logiciels
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (Partie d'EMC)

Session de questions/réponses

Pré requis

  • Connaissance des processus et des systèmes de données relatifs à l'application de la loi
  • Compréhension de base des bases de données SQL/Oracle ou relationnelles
  • Compréhension de base des statistiques (au niveau d'une feuille de calcul)

Public

  • Spécialistes de l'application de la loi ayant une formation technique
 35 Heures

Nombre de participants


Prix ​​par Participant

Nos clients témoignent (2)

Cours à venir

Catégories Similaires