Cursusaanbod

Dag 01

Overzicht van Big Data Business Intelligence voor Criminal Intelligence Analysis

  • Case Studies van de politie - Predictive Policing
  • Big Data adoptiegraad in overheidsinstanties en hoe ze hun toekomstige werkzaamheden rondom Big Data Predictive Analytics afstemmen
  • Opkomende technologische oplossingen zoals geweersensoren, bewakingsvideo en sociale media
  • Gebruik van Big Data technologie om informatica te verzachten
  • Interfacing Big Data met Legacy-gegevens
  • Basiskennis van technologieën die nodig zijn voor predictive analytics
  • Data Integration & Dashboardvisualisatie
  • Fraudebeheer
  • Business Rules en fraudedetectie
  • Dreigingsdetectie en profilering
  • Kosten-batenanalyse voor Big Data implementatie

Inleiding tot Big Data

  • Hoofdeigenschappen van Big Data - Volume, Variëteit, Snelheid en Waarheidsgetrouwheid.
  • MPP (Massively Parallel Processing) architectuur
  • Data Warehouses - statisch schema, langzaam evoluerende dataset
  • MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica, enz.
  • Hadoop op basis van oplossingen - geen voorwaarden voor de structuur van de dataset.
  • Typisch patroon: HDFS, MapReduce (verpulveren), ophalen van HDFS
  • Apache Spark voor stroomverwerking
  • Batch- geschikt voor analytische/non-interactieve
  • Volume: CEP-streaminggegevens
  • Typische keuzes - CEP-producten (bijv. Infostreams, Apama, MarkLogic, enz.)
  • Minder productieklare systemen - Storm/S4
  • NoSQL Databases - (kolom- en sleutel-waarde): Het beste geschikt als analytische aanvulling op de datawarehouse/database

NoSQL oplossingen

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (Hiërarchisch) - GT.m, Cache
  • KV Store (Geordend) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Object Database - ZopeDB, DB40, Shoal
  • Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Soorten gegevens: inleiding tot Data Cleaning kwesties in Big Data

  • RDBMS – statische structuur/schema, bevordert geen agile, verkennende omgeving.
  • NoSQL – semi-gestructureerd, genoeg structuur om gegevens op te slaan zonder exact schema voordat gegevens worden opgeslagen
  • Data-schoonmaakproblemen

Hadoop

  • Wanneer Hadoop te selecteren?
  • GEStructureerd - Enterprise data warehouses/databases kunnen enorme gegevens opslaan (tegen een prijs) maar stellen structuur (niet goed voor actieve verkenning) verplicht
  • SEMI GEStructureerde gegevens - moeilijk uit te voeren met traditionele oplossingen (DW/DB)
  • Gegevens in de opslagplaatsen = ENORME inspanning en statisch zelfs na implementatie
  • Voor variëteit en volume van gegevens, geperst op gewone hardware - HADOOP
  • Gewone H/W is nodig om een Hadoop Cluster te maken

Inleiding tot Map Reduce /HDFS

  • MapReduce - verdeel de computing over meerdere servers
  • HDFS - maak gegevens lokaal beschikbaar voor het computingproces (met redundanties)
  • Data - kan ongestructureerd/schema-loos zijn (in tegenstelling tot RDBMS)
  • De verantwoordelijkheid van de ontwikkelaar om gegevens zinvol te maken
  • Programming MapReduce = werken met Java (voor- en nadelen), gegevens handmatig in HDFS laden

Dag 02

Big Data Ecosysteem - Big Data ETL (Extract, Transform, Load) bouwen - Welke Big Data Tools te gebruiken en wanneer?

  • Hadoop vs. Andere NoSQL oplossingen
  • Voor interactieve, willekeurige toegang tot gegevens
  • Hbase (kolomgerichte database) bovenop Hadoop
  • Willekeurige toegang tot gegevens, maar met opgelegde beperkingen (max 1 PB)
  • Niet goed voor ad-hoc analytics, goed voor logging, telling, tijdreeksen
  • Sqoop - Importeren van databases naar Hive of HDFS (JDBC/ODBC-toegang)
  • Flume - Stream gegevens (bijv. loggegevens) in HDFS

Big Data Management Systeem

  • Bewegende delen, compute nodes starten/falen: ZooKeeper - Voor configuratie/coördinatie/naming services
  • Complexe pipeline/workflow: Oozie - workflow beheren, afhankelijkheden, daisy chain
  • Deployen, configureren, clusterbeheer, upgraden, enz. (systeembeheer): Ambari
  • In Cloud: Whirr

Predictive Analytics -- Fundamentele technieken en Machine Learning gebaseerde Business intelligentie

  • Inleiding tot Machine Learning
  • Leren classificatietechnieken
  • Bayesiaanse voorspelling - een trainingsbestand voorbereiden
  • Support Vector Machine
  • KNN p-Tree Algebra & verticale mining
  • Neural Networks
  • Big Data groot variabelenprobleem - Random forest (RF)
  • Big Data Automation-probleem - Multi-model ensemble RF
  • Automatisering via Soft10-M
  • tekstanalytisch hulpmiddel-Treeminer
  • Agile leren
  • Agentgebaseerd leren
  • Gedistriculeerd leren
  • Introductie tot open source Tools voor predictive analytics: R, Python, Rapidminer, Mahut

Predictive Analytics Ecosysteem en de toepassing ervan in de analyse van criminele inlichtingen

  • Technologie en het onderzoeksproces
  • Insight analytics
  • Visualisatie-analytics
  • Gestructuraliseerde voorspellende analytics
  • Ongestructured predictive analytics
  • Dreigings-/fraudster/profieleren van leveranciers
  • Recommendation Engine
  • Pattern detection
  • Rule/Scenario-ontdekking - falen, fraude, optimalisatie
  • Ontdekking van de hoofdoorzaak
  • Sentimentanalyse
  • CRM-analytics
  • Netwerkanalytics
  • Text analytics om inzichten te verkrijgen uit transcripts, getuigenverklaringen, internetgepraat, enz.
  • Technologie-assisted review
  • Fraude analytics
  • Realtime Analytic

Dag 03

Echte tijd en Scalable Analytics Over Hadoop

  • Waarom gewone analytische algoritmen falen in Hadoop/HDFS
  • Apache Hama - voor Bulk Synchronous distributed computing
  • Apache SPARK - voor cluster computing en realtime analytics
  • CMU Graphics Lab2 - Grafen gebaseerde asynchrone aanpak voor gedistribueerde computing
  • KNN p - Algebra gebaseerde aanpak van Treeminer voor verminderde hardwarekosten van de operatie

Hulpmiddelen voor eDiscovery en forensisch onderzoek

  • eDiscovery over Big Data vs. Legacy-gegevens - een vergelijking van kosten en prestaties
  • Predictive coding en Technology Assisted Review (TAR)
  • Live demo van vMiner om te begrijpen hoe TAR snellere ontdekking mogelijk maakt
  • Sneller indexeren via HDFS - Velocity van gegevens
  • NLP (Natural Language processing) - open source producten en technieken
  • eDiscovery in vreemde talen - technologie voor het verwerken van vreemde talen

Big Data BI voor Cyber Security – Een 360-gradenoverzicht krijgen, snelle gegevensverzameling en identificatie van bedreigingen

  • De basis van beveiligingsanalytics begrijpen - aanvalsvlak, beveiligingsconfiguratie, hostverdedigingen
  • Netwerkstructuur / Grote datapipe / Response ETL voor realtime analytics
  • Prescriptief vs. voorspellend - Vaste regelgebaseerde vs. autodetectie van dreigingsregels uit metadata

Het verzamelen van uiteenlopende gegevens voor de analyse van criminele inlichtingen

  • IoT (Internet of Things) gebruiken als sensoren voor het vastleggen van gegevens
  • Sattelietbeelden gebruiken voor binnenlandse surveillance
  • Bewakings- en afbeeldinggegevens gebruiken voor criminele identificatie
  • Andere technologieën voor gegevensverzameling - drones, bodycamera's, GPS-tagging-systemen en thermische beeldtechnologie
  • Geautomatiseerde gegevensretrieval combineren met gegevens verkregen van informanten, ondervraging en onderzoek
  • Forecasting criminele activiteit

Dag 04

Fraude-bewaking BI van Big Data in Fraud Analytics

  • Basisclassificatie van Fraud Analytics - regels gebaseerde vs. voorspellende analytics
  • Gecontroleerd vs. ongereguleerd machine leren voor fraude patroon detectie
  • Business naar zakelijke fraude, medische claims fraude, verzekeringsfraude, belastingontduiking en witwassen van geld

Social Media Analytics - Verzamelen en analyseren van inlichtingen

  • Hoe Social Media door criminelen wordt gebruikt om te organiseren, rekruteren en plannen
  • Big Data ETL API voor het extraheren van gegevens uit sociale media
  • Tekst-, beeld-, meta-gegevens en video
  • Sentimentanalyse uit sociale media feed
  • Contextueel en niet-contextueel filteren van sociale media feed
  • Social Media Dashboard om verschillende sociale media te integreren
  • Geautomatiseerde profilering van sociale mediaprofi
  • Live demo van elke analyse zal worden gegeven via de Treeminer Tool

Big Data Analyses in beeldverwerking en videofeeds

  • Image Storage-technieken in Big Data -- Opslagoplossing voor gegevens die petabytes overschrijden
  • LTFS (Linear Tape File System) en LTO (Linear Tape Open)
  • GPFS-LTFS (General Parallel File System - Linear Tape File System) - gelaagde opslagoplossing voor Big image data
  • Fundamentals of image analytics
  • Objectherkenning
  • Beeldsegmentatie
  • Motion tracking
  • 3-D beeld reconstructie

Biometrieken, DNA en identificatieprogramma's van de volgende generatie

  • Voorbij vingerafdrukken en gezichtsherkenning
  • Spraakherkenning, toetsaanslagen (het analyseren van het typpatroon van een gebruiker) en CODIS (combined DNA Index System)
  • Voorbij DNA-matching: het gebruiken van forensische DNA-fenotypering om een gezicht te reconstrueren van DNA-monsters

Big Data Dashboard voor snelle toegankelijkheid van diverse gegevens en weergave:

  • Integratie van het bestaande applicatieplatform met Big Data Dashboard
  • Big Data beheer
  • Case Study van Big Data Dashboard: Tableau en Pentaho
  • Gebruik Big Data app om locatiegebaseerde services in Govt. te pushen
  • Tracking systeem en management

Dag 05

Hoe de implementatie van Big Data BI binnen een organisatie te rechtvaardigen:

  • De ROI (Return on Investment) voor het implementeren van Big Data definiëren
  • Case studies voor het besparen van Analyst-tijd bij het verzamelen en voorbereiden van gegevens - de productiviteit verhogen
  • Omzetverhoging door lagere licentiekosten voor databases
  • Omzetverhoging door locatiegebaseerde diensten
  • Kostensbesparingen door fraude te voorkomen
  • Een geïntegreerde spreadsheetbenadering voor het berekenen van de geschatte uitgaven versus de omzetverhoging/besparingen van Big Data implementatie.

Stapsgewijze procedure voor het vervangen van een verouderd datasysteem door een Big Data-systeem

  • Big Data Migration Roadmap
  • Welke kritieke informatie is nodig voordat een Big Data systeem wordt ontworpen?
  • Wat zijn de verschillende manieren om het volume, de snelheid, de variëteit en de waarheidsgetrouwheid van gegevens te berekenen
  • Hoe gegevensgroei te schatten
  • Case studies

Beoordeling van Big Data leveranciers en beoordeling van hun producten.

  • Accenture
  • APTEAN (voorheen CDC Software)
  • Cisco Systemen
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (voorheen 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Instituut
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (onderdeel van EMC)

Vraag/A-sessie

Vereisten

  • Kennis van processen en dat systemen voor wetshandhaving
  • Basis begrip van SQL/Oracle of relationele database
  • Basis begrip van statistiek (op Spreadsheet niveau)

Doelgroep

  • Specialisten in de Handhaving met een technische achtergrond
 35 Uren

Aantal deelnemers


Prijs Per Deelnemer

Testimonials (2)

Voorlopige Aankomende Cursussen

Gerelateerde categorieën