Plan du cours

Chaque session dure 2 heures

Jour-1 : Session -1 : Aperçu commercial du Big Data et de l'intelligence d'affaires dans le gouvernement

  • Études de cas provenant de NIH, DoE
  • Taux d'adoption du Big Data dans les agences gouvernementales et comment elles alignent leurs futures opérations autour des analyses prédictives du Big Data
  • Domaines d'application à grande échelle au sein de la Défense, de l'Agence de sécurité nationale (NSA), du Service des impôts internes (IRS) et de l'Agriculture (USDA)
  • Intégration du Big Data avec les données héritées
  • Compréhension de base des technologies d'enablement dans l'analyse prédictive
  • Intégration de données et visualisation de tableaux de bord
  • Gestion de la fraude
  • Génération de règles commerciales/détection de fraude
  • Détection et profilage des menaces
  • Analyse coût-bénéfice pour l'implémentation du Big Data

Jour-1 : Session-2 : Introduction au Big Data - 1

  • Caractéristiques principales du Big Data — volume, variété, vitesse et véracité. Architecture MPP pour le volume.
  • Entrepôts de données — schéma statique, jeu de données évoluant lentement
  • Bases de données MPP comme Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
  • Solutions basées sur Hadoop — pas de conditions sur la structure du jeu de données.
  • Schéma typique : HDFS, MapReduce (traitement), récupération à partir d'HDFS
  • Traitement par lots — adapté aux analyses/non-interactives
  • Volume : données de streaming CEP
  • Choix typiques — produits CEP (par exemple, Infostreams, Apama, MarkLogic, etc.)
  • Moins prêts à la production — Storm/S4
  • Bases de données NoSQL (colonne et clé-valeur) : mieux adaptées en complément d'un entrepôt de données/base de données pour l'analyse

Jour-1 : Session -3 : Introduction au Big Data - 2

Solutions NoSQL

  • KV Store — Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store — Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (hiérarchique) — GT.m, Cache
  • KV Store (ordonné) — TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache — Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store — Gigaspaces, Coord, Apache River
  • Base de données objet — ZopeDB, DB40, Shoal
  • Base de données documentaire — CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Persevere, Riak-Basho, Scalaris
  • Store à colonnes larges — BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variétés de données : Introduction aux problèmes de nettoyage des données dans le Big Data

  • SGBD — structure/statut statique, ne favorise pas un environnement agile et exploratoire.
  • NoSQL — semi-structuré, suffisamment structuré pour stocker des données sans schéma exact avant le stockage
  • Problèmes de nettoyage des données

Jour-1 : Session-4 : Introduction au Big Data - 3 : Hadoop

  • Quand choisir Hadoop ?
  • STRUCTURÉ — Les entrepôts de données/les bases de données d'entreprise peuvent stocker des volumes massifs de données (à un coût) mais imposent une structure (pas bon pour l'exploration active)
  • DONNÉES SEMI-STRUCTURÉES — difficiles à gérer avec des solutions traditionnelles (DW/DB)
  • Création d'entrepôts de données = effort énorme et statique même après l'implémentation
  • Pour la variété et le volume de données, traitées sur du matériel standard — HADOOP
  • Matériel H/standard nécessaire pour créer un cluster Hadoop

Introduction à MapReduce/HDFS

  • MapReduce — distribution des calculs sur plusieurs serveurs
  • HDFS — rend les données disponibles localement pour le processus de calcul (avec redondance)
  • Données — peuvent être non structurées/sans schéma (contrairement aux SGBD)
  • Responsabilité du développeur de donner un sens aux données
  • Programmation MapReduce = travail avec Java (avantages/inconvénients), chargement manuel des données dans HDFS

Jour-2 : Session-1 : Écosystème du Big Data — Construction de l'ETL du Big Data : univers des outils de Big Data — lequel utiliser et quand ?

  • Hadoop vs. autres solutions NoSQL
  • Pour l'accès interactif, aléatoire aux données
  • Hbase (base de données orientée colonne) sur Hadoop
  • Accès aléatoire aux données mais restrictions imposées (max 1 PB)
  • Pas bon pour les analyses ad hoc, bon pour le logging, le comptage, les séries temporelles
  • Sqoop — Importation de bases de données vers Hive ou HDFS (accès JDBC/ODBC)
  • Flume — flux de données (par exemple, données de logs) dans HDFS

Jour-2 : Session-2 : Système de gestion du Big Data

  • Composants mobiles, nœuds de calcul démarrent/échouent : ZooKeeper — pour la configuration/coordonnées/services de nommage
  • Pipeline/flux complexes : Oozie — gestion des flux, des dépendances, enchaînement
  • Déploiement, configuration, gestion de cluster, mise à niveau, etc. (administrateur système) : Ambari
  • Dans le cloud : Whirr

Jour-2 : Session-3 : Analyse prédictive dans l'intelligence d'affaires - 1 : Techniques fondamentales et analyse basée sur l'apprentissage automatique

  • Introduction à l'apprentissage automatique
  • Techniques de classification d'apprentissage
  • Prédiction bayésienne — préparation du fichier d'entraînement
  • Machine à vecteurs de support (SVM)
  • KNN p-Tree Algebra & vertical mining
  • Réseaux de neurones
  • Problème des grandes variables du Big Data — Forêts aléatoires (RF)
  • Problème d'automatisation du Big Data — Ensemble de modèles multi-modèles RF
  • Automatisation par Soft10-M
  • Outil d'analyse textuelle — Treeminer
  • Apprentissage agile
  • Apprentissage basé sur les agents
  • Apprentissage distribué
  • Introduction aux outils open source pour l'analyse prédictive : R, Rapidminer, Mahut

Jour-2 : Session-4 Écosystème de l'analyse prédictive - 2 : Problèmes courants d'analyse prédictive dans le gouvernement

  • Analyse des insights
  • Analyse visuelle
  • Analyse prédictive structurée
  • Analyse prédictive non structurée
  • Profilage des menaces/fraudes/fournisseurs
  • Moteur de recommandation
  • Détection de modèles
  • Découverte de règles/scénarios — échec, fraude, optimisation
  • Découverte des causes profondes
  • Analyse des sentiments
  • Analyse CRM
  • Analyse de réseau
  • Analyse textuelle
  • Examen assisté par la technologie
  • Analyse des fraudes
  • Analyse en temps réel

Jour-3 : Session-1 : Analyse en temps réel et évolutive sur Hadoop

  • Pourquoi les algorithmes d'analyse courants échouent dans Hadoop/HDFS
  • Apache Hama — pour le calcul distribué synchrone en bloc
  • Apache SPARK — pour le calcul de cluster en temps réel
  • Laboratoire de graphiques CMU Graphics Lab2 — approche asynchrone basée sur les graphes pour le calcul distribué
  • Approche KNN p-Algebra de Treeminer pour réduire le coût matériel des opérations

Jour-3 : Session-2 : Outils d'eDiscovery et de forensique

  • eDiscovery sur le Big Data vs. les données héritées — comparaison des coûts et des performances
  • Codage prédictif et examen assisté par la technologie (TAR)
  • Démonstration en direct d'un produit TAR (vMiner) pour comprendre comment le TAR fonctionne pour une découverte plus rapide
  • Indexation plus rapide via HDFS — vitesse des données
  • NLP ou Traitement du langage naturel — diverses techniques et produits open source
  • eDiscovery en langues étrangères — technologie de traitement des langues étrangères

Jour-3 : Session 3 : BI Big Data pour la sécurité informatique — Compréhension d'une vue complète de 360 degrés, de la collecte rapide des données à l'identification des menaces

  • Compréhension des bases de l'analyse de sécurité — surface d'attaque, mauvaise configuration de la sécurité, défenses hôtes
  • Infrastructure réseau/Grande datapipe/ETL de réponse pour l'analyse en temps réel
  • Prescriptif vs prédictif — Règles fixes basées sur les métadonnées vs découverte automatique des règles de menace

Jour-3 : Session 4 : Big Data au USDA : Application dans l'agriculture

  • Introduction à IoT (Internet des objets) pour l'agriculture — données de capteurs basées sur le Big Data et contrôle
  • Introduction à l'imagerie par satellite et ses applications dans l'agriculture
  • Intégration des données de capteurs et d'imagerie pour la fertilité du sol, les recommandations de culture et la prévision
  • Assurance agricole et Big Data
  • Prévision des pertes de récolte

Jour-4 : Session-1 : Prévention de la fraude BI à partir du Big Data dans le gouvernement — Analyse de la fraude

  • Classification de base des analyses de fraude — basées sur des règles vs prédictives
  • Apprentissage automatique supervisé vs non supervisé pour la détection de modèles de fraude
  • Fraude de fournisseur/surcharge pour les projets
  • Fraudes d'assurance maladie et Medicaid — techniques de détection de fraudes pour le traitement des demandes
  • Fraudes de remboursement de voyages
  • Fraudes de remboursement d'impôt par l'IRS
  • Des études de cas et des démonstrations en direct seront fournies là où les données sont disponibles.

Jour-4 : Session-2 : Analyse des médias sociaux — Collecte et analyse d'intelligence

  • API ETL Big Data pour extraire les données des médias sociaux
  • Texte, image, métadonnées et vidéo
  • Analyse des sentiments à partir des flux de médias sociaux
  • Filtrage contextuel et non contextuel des flux de médias sociaux
  • Tableau de bord des médias sociaux pour intégrer diverses sources de médias sociaux
  • Profilage automatique des profils de médias sociaux
  • Une démonstration en direct de chaque analyse sera donnée via l'outil Treeminer.

Jour-4 : Session-3 : Analyse du Big Data dans le traitement d'image et les flux vidéo

  • Techniques de stockage d'images dans le Big Data — solutions de stockage pour des données dépassant les pétaoctets
  • LTFS et LTO
  • GPFS-LTFS (solution de stockage en couches pour les grandes images)
  • Fondements de l'analyse d'image
  • Reconnaissance d'objets
  • Segmentation d'images
  • Suivi de mouvement
  • Reconstruction d'images 3D

Jour-4 : Session-4 : Applications du Big Data au NIH

  • Domaines émergents de la bio-informatique
  • Méta-génomique et problèmes d'exploitation des données Big Data
  • Analyse prédictive du Big Data pour la pharmacogénomique, la métabolomique et la protéomique
  • Big Data dans le processus génomique en aval
  • Applications de l'analyse prédictive du Big Data pour la santé publique

Tableau de bord Big Data pour un accès rapide et une visualisation diversifiée des données :

  • Intégration de la plateforme d'application existante avec le tableau de bord Big Data
  • Gestion du Big Data
  • Étude de cas de tableau de bord Big Data : Tableau et Pentaho
  • Utilisation d'une application Big Data pour pousser des services basés sur l'emplacement dans le gouvernement
  • Système de suivi et gestion

Jour-5 : Session-1 : Comment justifier l'implémentation de l'intelligence d'affaires Big Data au sein d'une organisation :

  • Définition du retour sur investissement (ROI) pour l'implémentation du Big Data
  • Études de cas pour économiser le temps des analystes dans la collecte et la préparation des données — augmentation de la productivité
  • Études de cas d'augmentation des revenus grâce à l'économie sur les coûts des bases de données sous licence
  • Augmentation des revenus grâce aux services basés sur l'emplacement
  • Économies réalisées grâce à la prévention de la fraude
  • Une approche intégrée de tableur pour calculer les dépenses approximatives vs. le gain/les économies de revenus issus de l'implémentation du Big Data.

Jour-5 : Session-2 : Procédure étape par étape pour remplacer un système de données héritées par un système de Big Data :

  • Compréhension du plan d'implémentation pratique du Big Data
  • Quelles sont les informations importantes à connaître avant de concevoir une implémentation de Big Data
  • Quelles sont les différentes méthodes pour calculer le volume, la vitesse, la variété et la véracité des données
  • Comment estimer la croissance des données
  • Études de cas

Jour-5 : Session 4 : Revue des fournisseurs de Big Data et évaluation de leurs produits. Séance Q/A :

  • Accenture
  • APTEAN (anciennement CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (anciennement 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (partie de EMC)

Pré requis

  • Connaissances de base des opérations commerciales et des systèmes de données du gouvernement dans leur domaine
  • Compréhension de base de SQL/Oracle ou d'une base de données relationnelle
  • Connaissance de base des statistiques (au niveau des tableurs)
 35 Heures

Nombre de participants


Prix ​​par Participant

Nos clients témoignent (1)

Cours à venir

Catégories Similaires