Bedankt voor uw aanvraag! Een van onze medewerkers neemt binnenkort contact met u op
Bedankt voor uw boeking! Een van onze medewerkers neemt binnenkort contact met u op.
Cursusaanbod
Elke sessie duurt 2 uur
Dag 1: Sessie -1: Business Overzicht van waarom Big Data Business Intelligentie in Govt.
- Casestudies van NIH, DoE
- Big Data aanpassingspercentage in Govt. Agentschappen en hoe zij hun toekomstige activiteiten afstemmen op Big Data Predictive Analytics
- Breed toepassingsgebied in DoD, NSA, IRS, USDA enz.
- Interface Big Data met oudere gegevens
- Basiskennis van ondersteunende technologieën in voorspellende analyses
- Data Integration & Dashboardvisualisatie
- Fraudebeheer
- Business Generatie van regels/fraudedetectie
- Bedreigingsdetectie en profilering
- Kosten-batenanalyse voor Big Data implementatie
Dag 1: Sessie 2: Introductie van Big Data-1
- Belangrijkste kenmerken van Big Data-volume, variëteit, snelheid en waarheidsgetrouwheid. MPP-architectuur voor volume.
- Data Warehouses – statisch schema, langzaam evoluerende dataset
- MPP Database's zoals Greenplum, Exadata, Teradata, Netezza, Vertica etc.
- Hadoop Gebaseerde oplossingen – geen voorwaarden aan de structuur van de dataset.
- Typisch patroon: HDFS, MapReduce (crunch), ophalen uit HDFS
- Batch-geschikt voor analytisch/niet-interactief
- Volume: CEP-streaminggegevens
- Typische keuzes – CEP-producten (bijv. Infostreams, Apama, MarkLogic enz.)
- Minder productieklaar – Storm/S4
- NoSQL Databases – (kolommen en sleutelwaarde): Meest geschikt als analytische aanvulling op datawarehouse/database
Dag-1: Sessie -3: Inleiding tot Big Data-2
NoSQL oplossingen
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Winkel - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (hiërarchisch) - GT.m, cache
- KV Store (besteld) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV-cache - Memcached, opnieuw gecached, coherentie, Infinispan, EXtremeScale, JBoss cache, snelheid, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Object Database - ZopeDB, DB40, Shoal
- Documentopslag - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Brede zuilvormige winkel - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Soorten gegevens: Inleiding tot Data Cleaning uitgave in Big Data
- RDBMS – statische structuur/schema, bevordert geen flexibele, verkennende omgeving.
- NoSQL – semi-gestructureerd, voldoende structuur om gegevens op te slaan zonder exact schema voordat gegevens worden opgeslagen
- Problemen met het opschonen van gegevens
Dag-1: Sessie-4: Big Data Introductie-3: Hadoop
- Wanneer moet u Hadoop selecteren?
- GESTRUCTUREERD - Datawarehouses/databases voor ondernemingen kunnen enorme hoeveelheden gegevens opslaan (tegen een vergoeding), maar structuur opleggen (niet goed voor actieve verkenning)
- SEMI GESTRUCTUREERDE data – moeilijk te doen met traditionele oplossingen (DW/DB)
- Gegevens opslaan = ENORME inspanning en statisch, zelfs na implementatie
- Voor verscheidenheid en volume aan gegevens, verwerkt op standaardhardware – HADOOP
- Commodity H/W was nodig om een Hadoop cluster te creëren
Inleiding tot Map Reduce /HDFS
- MapReduce – distribueer computergebruik over meerdere servers
- HDFS – gegevens lokaal beschikbaar maken voor het computerproces (met redundantie)
- Gegevens – kunnen ongestructureerd/schemaloos zijn (in tegenstelling tot RDBMS)
- De verantwoordelijkheid van ontwikkelaars om betekenis te geven aan data
- Programming MapReduce = werken met Java (voor-/nadelen), gegevens handmatig in HDFS laden
Dag 2: Sessie 1: Big Data Ecosysteem bouwen Big Data ETL: universum van Big Data Tools - welke te gebruiken en wanneer?
- Hadoop versus andere NoSQL oplossingen
- Voor interactieve, willekeurige toegang tot gegevens
- Hbase (kolomgeoriënteerde database) bovenop Hadoop
- Willekeurige toegang tot gegevens maar opgelegde beperkingen (max. 1 PB)
- Niet goed voor ad-hocanalyses, goed voor loggen, tellen, tijdreeksen
- Sqoop - Importeren uit databases naar Hive of HDFS (JDBC/ODBC-toegang)
- Flume – Stream gegevens (bijv. loggegevens) naar HDFS
Dag 2: Sessie 2: Big Data Management Systeem
- Bewegende delen, rekenknooppunten starten/mislukken: ZooKeeper - Voor configuratie-/coördinatie-/naamgevingsservices
- Complexe pijplijn/workflow: Oozie – beheer workflow, afhankelijkheden, serieschakeling
- Implementeren, configureren, clusterbeheer, upgrade enz. (sys admin):Ambari
- In de cloud: zoem
Dag 2: Sessie 3: Voorspellende analyses in Business Intelligentie -1: Fundamentele technieken en op machine learning gebaseerde BI:
- Inleiding tot machinaal leren
- Classificatietechnieken leren
- Bayesiaans trainingsbestand voor het voorbereiden van voorspellingen
- Ondersteuning van vectormachine
- KNN p-Tree Algebra en verticale mijnbouw
- Neuraal netwerk
- Big Data groot variabel probleem - Willekeurig bos (RF)
- Big Data Automatiseringsprobleem – Multi-modellenensemble RF
- Automatisering via Soft10-M
- Tekstanalysetool-Treeminer
- Agile leren
- Agent-gebaseerd leren
- Gedistribueerd leren
- Inleiding tot open source-tools voor voorspellende analyses: R, Rapidminer, Mahut
Dag 2: Sessie 4 Ecosysteem voor voorspellende analyses-2: Veelvoorkomende problemen met voorspellende analyses in Govt.
- Inzicht analytisch
- Visualisatie analytisch
- Gestructureerde voorspellende analyse
- Ongestructureerde voorspellende analyse
- Dreiging/fraudeur/leveranciersprofilering
- Aanbevelingsmotor
- Patroondetectie
- Ontdekking van regels/scenario’s – mislukking, fraude, optimalisatie
- Ontdekking van de oorzaak
- Sentiment analyse
- CRM-analyse
- Netwerkanalyse
- Tekstanalyse
- Technologieondersteunde beoordeling
- Fraudeanalyse
- Realtime analyse
Dag 3: Sessie 1: Realtime en Scalable-analyse gedurende Hadoop
- Waarom algemene analytische algoritmen falen in Hadoop/HDFS
- Apache Hama- voor bulksynchrone, gedistribueerde computergebruik
- Apache SPARK- voor clustercomputing voor realtime analyse
- CMU Graphics Lab2 - Op grafieken gebaseerde asynchrone benadering van gedistribueerd computergebruik
- Op KNN p-Algebra gebaseerde aanpak van Treeminer voor lagere hardwarekosten
Dag 3: Sessie 2 : Tools voor eDiscovery en forensisch onderzoek
- eDiscovery over Big Data versus oudere gegevens – een vergelijking van kosten en prestaties
- Voorspellende codering en technologieondersteunde beoordeling (TAR)
- Live demo van een Tar-product (vMiner) om te begrijpen hoe TAR werkt voor snellere ontdekking
- Snellere indexering via HDFS – snelheid van gegevens
- NLP of natuurlijke taalverwerking – verschillende technieken en open source-producten
- eDiscovery in vreemde talen-technologie voor de verwerking van vreemde talen
Dag 3: Sessie 3: Big Data BI voor Cyber Security – Inzicht in het volledige 360-gradenoverzicht van snelle gegevensverzameling tot identificatie van bedreigingen
- Inzicht in de basisprincipes van beveiligingsanalyses: aanvalsoppervlak, verkeerde configuratie van beveiliging, hostverdediging
- Netwerkinfrastructuur/grote datapipe/respons-ETL voor realtime analyse
- Prescriptief versus voorspellend – Vaste, op regels gebaseerde versus automatische detectie van bedreigingsregels uit metagegevens
Dag 3: Sessie 4: Big Data in USDA: toepassing in de landbouw
- Inleiding tot IoT (Internet of Things) voor landbouw-sensorgebaseerd Big Data en controle
- Inleiding tot satellietbeelden en de toepassing ervan in de landbouw
- Integratie van sensor- en beelddata voor bodemvruchtbaarheid, teeltadvies en prognoses
- Landbouwverzekeringen en Big Data
- Voorspelling van oogstverlies
Dag 4: Sessie 1: Fraudepreventie BI uit Big Data in Govt-fraudeanalyse:
- Basisclassificatie van fraudeanalyses: op regels gebaseerde versus voorspellende analyses
- Onder toezicht versus onbewaakt Machine learning voor detectie van fraudepatronen
- Leveranciersfraude/te hoge kosten voor projecten
- Medicare en Medicaid fraude - fraudedetectietechnieken voor claimverwerking
- Fraude met reisvergoedingen
- IRS-terugbetalingsfraude
- Casestudies en live demo's worden gegeven waar gegevens beschikbaar zijn.
Dag 4: Sessie 2: Social Media Analytisch - Verzamelen en analyseren van inlichtingen
- Big Data ETL API voor het extraheren van sociale mediagegevens
- Tekst, beeld, metadata en video
- Sentimentanalyse van social media-feed
- Contextueel en niet-contextueel filteren van sociale media-feeds
- Social Media Dashboard om diverse sociale media te integreren
- Geautomatiseerde profilering van sociale mediaprofielen
- Live demo van elke analyse wordt gegeven via Treeminer Tool.
Dag 4: Sessie 3: Big Data Analytisch in beeldverwerking en videofeeds
- Technieken voor beeldopslag in Big Data - Opslagoplossing voor gegevens groter dan petabytes
- LTFS en LTO
- GPFS-LTFS (gelaagde opslagoplossing voor grote beeldgegevens)
- Fundamenteel van beeldanalyse
- Object herkenning
- Segmentatie van afbeeldingen
- Beweging volgen
- 3D-beeldreconstructie
Dag 4: Sessie 4: Big Data aanvragen bij NIH:
- Opkomende gebieden van Bio-informatica
- Meta-genomica en Big Data mijnbouwkwesties
- Big Data Voorspellende analyse voor farmacogenomica, metabolomics en proteomics
- Big Data in het stroomafwaartse Genomics-proces
- Toepassing van voorspellende analyses van big data in de volksgezondheid
Big Data Dashboard voor snelle toegang tot diverse gegevens en weergave:
- Integratie van bestaand applicatieplatform met Big Data Dashboard
- Big Data beheer
- Casestudy van Big Data Dashboard: Tableau en Pentaho
- Gebruik de app Big Data om locatiegebaseerde services in Govt te pushen.
- Volgsysteem en beheer
Dag 5: Sessie 1: Hoe Big Data BI-implementatie binnen een organisatie rechtvaardigen:
- ROI definiëren voor Big Data implementatie
- Casestudies om tijd voor analisten te besparen bij het verzamelen en voorbereiden van gegevens – verhoging van de productiviteitswinst
- Casestudy's van inkomstenwinst door het besparen van gelicentieerde databasekosten
- Inkomstenwinst uit locatiegebaseerde diensten
- Besparen op fraudepreventie
- Een geïntegreerde spreadsheetbenadering om ca. kosten versus inkomstenwinst/besparingen uit Big Data implementatie.
Dag 5: Sessie 2: Stapsgewijze procedure om het oude datasysteem te vervangen naar Big Data Systeem:
- Praktisch inzicht Big Data Migratieroutekaart
- Wat is de belangrijke informatie die nodig is voordat een Big Data implementatie wordt ontworpen
- Wat zijn de verschillende manieren om het volume, de snelheid, de variëteit en de waarheidsgetrouwheid van gegevens te berekenen?
- Hoe de datagroei te schatten
- Casestudies
Dag 5: Sessie 4: Beoordeling van Big Data leveranciers en beoordeling van hun producten. Vraag/A-sessie:
- Accenture
- APTEAN (voorheen CDC-software)
- Cisco Systemen
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guaves
- Hitachi-datasystemen
- Hortonwerken
- PK
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Voorheen 10Gen)
- MU Sigma
- Netapp
- Opera-oplossingen
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackruimte
- Revolutieanalyse
- Salesforce
- SAP
- SAS Instituut
- Sisense
- Software AG/Terracotta
- Soft10-automatisering
- Splunk
- Sqrl
- Supermicro
- Tableau Software
- Teradata
- Denk aan grote analyses
- Getijdenmarkeringssystemen
- Boommijnwerker
- VMware (Onderdeel van EMC)
Vereisten
- Basiskennis van bedrijfsvoering en datasystemen bij de overheid. in hun domein
- Basiskennis van SQL/Oracle of relationele databases
- Basiskennis van Statistics (op spreadsheetniveau)
35 Uren