Cursusaanbod
Dag 01
Overzicht van Big Data Business Intelligence voor Criminal Intelligence Analysis
- Case Studies van de politie - Predictive Policing
- Big Data adoptiegraad in overheidsinstanties en hoe ze hun toekomstige werkzaamheden rondom Big Data Predictive Analytics afstemmen
- Opkomende technologische oplossingen zoals geweersensoren, bewakingsvideo en sociale media
- Gebruik van Big Data technologie om informatica te verzachten
- Interfacing Big Data met Legacy-gegevens
- Basiskennis van technologieën die nodig zijn voor predictive analytics
- Data Integration & Dashboardvisualisatie
- Fraudebeheer
- Business Rules en fraudedetectie
- Dreigingsdetectie en profilering
- Kosten-batenanalyse voor Big Data implementatie
Inleiding tot Big Data
- Hoofdeigenschappen van Big Data - Volume, Variëteit, Snelheid en Waarheidsgetrouwheid.
- MPP (Massively Parallel Processing) architectuur
- Data Warehouses - statisch schema, langzaam evoluerende dataset
- MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica, enz.
- Hadoop op basis van oplossingen - geen voorwaarden voor de structuur van de dataset.
- Typisch patroon: HDFS, MapReduce (verpulveren), ophalen van HDFS
- Apache Spark voor stroomverwerking
- Batch- geschikt voor analytische/non-interactieve
- Volume: CEP-streaminggegevens
- Typische keuzes - CEP-producten (bijv. Infostreams, Apama, MarkLogic, enz.)
- Minder productieklare systemen - Storm/S4
- NoSQL Databases - (kolom- en sleutel-waarde): Het beste geschikt als analytische aanvulling op de datawarehouse/database
NoSQL oplossingen
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (Hiërarchisch) - GT.m, Cache
- KV Store (Geordend) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Object Database - ZopeDB, DB40, Shoal
- Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Soorten gegevens: inleiding tot Data Cleaning kwesties in Big Data
- RDBMS – statische structuur/schema, bevordert geen agile, verkennende omgeving.
- NoSQL – semi-gestructureerd, genoeg structuur om gegevens op te slaan zonder exact schema voordat gegevens worden opgeslagen
- Data-schoonmaakproblemen
Hadoop
- Wanneer Hadoop te selecteren?
- GEStructureerd - Enterprise data warehouses/databases kunnen enorme gegevens opslaan (tegen een prijs) maar stellen structuur (niet goed voor actieve verkenning) verplicht
- SEMI GEStructureerde gegevens - moeilijk uit te voeren met traditionele oplossingen (DW/DB)
- Gegevens in de opslagplaatsen = ENORME inspanning en statisch zelfs na implementatie
- Voor variëteit en volume van gegevens, geperst op gewone hardware - HADOOP
- Gewone H/W is nodig om een Hadoop Cluster te maken
Inleiding tot Map Reduce /HDFS
- MapReduce - verdeel de computing over meerdere servers
- HDFS - maak gegevens lokaal beschikbaar voor het computingproces (met redundanties)
- Data - kan ongestructureerd/schema-loos zijn (in tegenstelling tot RDBMS)
- De verantwoordelijkheid van de ontwikkelaar om gegevens zinvol te maken
- Programming MapReduce = werken met Java (voor- en nadelen), gegevens handmatig in HDFS laden
Dag 02
Big Data Ecosysteem - Big Data ETL (Extract, Transform, Load) bouwen - Welke Big Data Tools te gebruiken en wanneer?
- Hadoop vs. Andere NoSQL oplossingen
- Voor interactieve, willekeurige toegang tot gegevens
- Hbase (kolomgerichte database) bovenop Hadoop
- Willekeurige toegang tot gegevens, maar met opgelegde beperkingen (max 1 PB)
- Niet goed voor ad-hoc analytics, goed voor logging, telling, tijdreeksen
- Sqoop - Importeren van databases naar Hive of HDFS (JDBC/ODBC-toegang)
- Flume - Stream gegevens (bijv. loggegevens) in HDFS
Big Data Management Systeem
- Bewegende delen, compute nodes starten/falen: ZooKeeper - Voor configuratie/coördinatie/naming services
- Complexe pipeline/workflow: Oozie - workflow beheren, afhankelijkheden, daisy chain
- Deployen, configureren, clusterbeheer, upgraden, enz. (systeembeheer): Ambari
- In Cloud: Whirr
Predictive Analytics -- Fundamentele technieken en Machine Learning gebaseerde Business intelligentie
- Inleiding tot Machine Learning
- Leren classificatietechnieken
- Bayesiaanse voorspelling - een trainingsbestand voorbereiden
- Support Vector Machine
- KNN p-Tree Algebra & verticale mining
- Neural Networks
- Big Data groot variabelenprobleem - Random forest (RF)
- Big Data Automation-probleem - Multi-model ensemble RF
- Automatisering via Soft10-M
- tekstanalytisch hulpmiddel-Treeminer
- Agile leren
- Agentgebaseerd leren
- Gedistriculeerd leren
- Introductie tot open source Tools voor predictive analytics: R, Python, Rapidminer, Mahut
Predictive Analytics Ecosysteem en de toepassing ervan in de analyse van criminele inlichtingen
- Technologie en het onderzoeksproces
- Insight analytics
- Visualisatie-analytics
- Gestructuraliseerde voorspellende analytics
- Ongestructured predictive analytics
- Dreigings-/fraudster/profieleren van leveranciers
- Recommendation Engine
- Pattern detection
- Rule/Scenario-ontdekking - falen, fraude, optimalisatie
- Ontdekking van de hoofdoorzaak
- Sentimentanalyse
- CRM-analytics
- Netwerkanalytics
- Text analytics om inzichten te verkrijgen uit transcripts, getuigenverklaringen, internetgepraat, enz.
- Technologie-assisted review
- Fraude analytics
- Realtime Analytic
Dag 03
Echte tijd en Scalable Analytics Over Hadoop
- Waarom gewone analytische algoritmen falen in Hadoop/HDFS
- Apache Hama - voor Bulk Synchronous distributed computing
- Apache SPARK - voor cluster computing en realtime analytics
- CMU Graphics Lab2 - Grafen gebaseerde asynchrone aanpak voor gedistribueerde computing
- KNN p - Algebra gebaseerde aanpak van Treeminer voor verminderde hardwarekosten van de operatie
Hulpmiddelen voor eDiscovery en forensisch onderzoek
- eDiscovery over Big Data vs. Legacy-gegevens - een vergelijking van kosten en prestaties
- Predictive coding en Technology Assisted Review (TAR)
- Live demo van vMiner om te begrijpen hoe TAR snellere ontdekking mogelijk maakt
- Sneller indexeren via HDFS - Velocity van gegevens
- NLP (Natural Language processing) - open source producten en technieken
- eDiscovery in vreemde talen - technologie voor het verwerken van vreemde talen
Big Data BI voor Cyber Security – Een 360-gradenoverzicht krijgen, snelle gegevensverzameling en identificatie van bedreigingen
- De basis van beveiligingsanalytics begrijpen - aanvalsvlak, beveiligingsconfiguratie, hostverdedigingen
- Netwerkstructuur / Grote datapipe / Response ETL voor realtime analytics
- Prescriptief vs. voorspellend - Vaste regelgebaseerde vs. autodetectie van dreigingsregels uit metadata
Het verzamelen van uiteenlopende gegevens voor de analyse van criminele inlichtingen
- IoT (Internet of Things) gebruiken als sensoren voor het vastleggen van gegevens
- Sattelietbeelden gebruiken voor binnenlandse surveillance
- Bewakings- en afbeeldinggegevens gebruiken voor criminele identificatie
- Andere technologieën voor gegevensverzameling - drones, bodycamera's, GPS-tagging-systemen en thermische beeldtechnologie
- Geautomatiseerde gegevensretrieval combineren met gegevens verkregen van informanten, ondervraging en onderzoek
- Forecasting criminele activiteit
Dag 04
Fraude-bewaking BI van Big Data in Fraud Analytics
- Basisclassificatie van Fraud Analytics - regels gebaseerde vs. voorspellende analytics
- Gecontroleerd vs. ongereguleerd machine leren voor fraude patroon detectie
- Business naar zakelijke fraude, medische claims fraude, verzekeringsfraude, belastingontduiking en witwassen van geld
Social Media Analytics - Verzamelen en analyseren van inlichtingen
- Hoe Social Media door criminelen wordt gebruikt om te organiseren, rekruteren en plannen
- Big Data ETL API voor het extraheren van gegevens uit sociale media
- Tekst-, beeld-, meta-gegevens en video
- Sentimentanalyse uit sociale media feed
- Contextueel en niet-contextueel filteren van sociale media feed
- Social Media Dashboard om verschillende sociale media te integreren
- Geautomatiseerde profilering van sociale mediaprofi
- Live demo van elke analyse zal worden gegeven via de Treeminer Tool
Big Data Analyses in beeldverwerking en videofeeds
- Image Storage-technieken in Big Data -- Opslagoplossing voor gegevens die petabytes overschrijden
- LTFS (Linear Tape File System) en LTO (Linear Tape Open)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) - gelaagde opslagoplossing voor Big image data
- Fundamentals of image analytics
- Objectherkenning
- Beeldsegmentatie
- Motion tracking
- 3-D beeld reconstructie
Biometrieken, DNA en identificatieprogramma's van de volgende generatie
- Voorbij vingerafdrukken en gezichtsherkenning
- Spraakherkenning, toetsaanslagen (het analyseren van het typpatroon van een gebruiker) en CODIS (combined DNA Index System)
- Voorbij DNA-matching: het gebruiken van forensische DNA-fenotypering om een gezicht te reconstrueren van DNA-monsters
Big Data Dashboard voor snelle toegankelijkheid van diverse gegevens en weergave:
- Integratie van het bestaande applicatieplatform met Big Data Dashboard
- Big Data beheer
- Case Study van Big Data Dashboard: Tableau en Pentaho
- Gebruik Big Data app om locatiegebaseerde services in Govt. te pushen
- Tracking systeem en management
Dag 05
Hoe de implementatie van Big Data BI binnen een organisatie te rechtvaardigen:
- De ROI (Return on Investment) voor het implementeren van Big Data definiëren
- Case studies voor het besparen van Analyst-tijd bij het verzamelen en voorbereiden van gegevens - de productiviteit verhogen
- Omzetverhoging door lagere licentiekosten voor databases
- Omzetverhoging door locatiegebaseerde diensten
- Kostensbesparingen door fraude te voorkomen
- Een geïntegreerde spreadsheetbenadering voor het berekenen van de geschatte uitgaven versus de omzetverhoging/besparingen van Big Data implementatie.
Stapsgewijze procedure voor het vervangen van een verouderd datasysteem door een Big Data-systeem
- Big Data Migration Roadmap
- Welke kritieke informatie is nodig voordat een Big Data systeem wordt ontworpen?
- Wat zijn de verschillende manieren om het volume, de snelheid, de variëteit en de waarheidsgetrouwheid van gegevens te berekenen
- Hoe gegevensgroei te schatten
- Case studies
Beoordeling van Big Data leveranciers en beoordeling van hun producten.
- Accenture
- APTEAN (voorheen CDC Software)
- Cisco Systemen
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (voorheen 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Instituut
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (onderdeel van EMC)
Vraag/A-sessie
Vereisten
- Kennis van processen en dat systemen voor wetshandhaving
- Basis begrip van SQL/Oracle of relationele database
- Basis begrip van statistiek (op Spreadsheet niveau)
Doelgroep
- Specialisten in de Handhaving met een technische achtergrond
Testimonials (2)
Deepthi was super attuned to my needs, she could tell when to add layers of complexity and when to hold back and take a more structured approach. Deepthi werkte echt in mijn tempo en zorgde ervoor dat ik de nieuwe functies/tools zelf kon gebruiken door het eerst te laten zien en me vervolgens de dingen zelf te laten recreëren, wat echt hielp om de training te verankeren. Ik had niet gelukkiger kunnen zijn met de resultaten van deze training en met het expertise-niveau van Deepthi!
Deepthi - Invest Northern Ireland
Cursus - IBM Cognos Analytics
Automatisch vertaald
De diversiteit van de behandelde onderwerpen
Romaric - Vacher
Cursus - Business Intelligence and Data Analysis with Metabase
Automatisch vertaald