A Practical Introduction to Stream Processing Training Cursus
Stream Processing verwijst naar de realtime verwerking van "gegevens in beweging", dat wil zeggen het uitvoeren van berekeningen op gegevens terwijl deze worden ontvangen. Dergelijke gegevens worden gelezen als continue stromen van gegevensbronnen zoals sensorgebeurtenissen, website-gebruikersactiviteit, financiële transacties, creditcardbewegingen, klikstromen, enz. Stream Processing frameworks kunnen grote hoeveelheden inkomende gegevens lezen en bieden vrijwel onmiddellijk waardevolle inzichten.
In deze door een instructeur geleide, live training (op locatie of op afstand), leren deelnemers hoe ze verschillende Stream Processing frameworks kunnen opzetten en integreren met bestaande big data-opslagsystemen en gerelateerde softwareapplicaties en microservices.
Aan het einde van deze training kunnen deelnemers:
- Installeer en configureer verschillende Stream Processing frameworks, zoals Spark Streaming en Kafka Streaming.
- Begrijp en selecteer het meest geschikte kader voor de taak.
- Verwerking van gegevens continu, gelijktijdig en op recordniveau.
- Integreer Stream Processing oplossingen met bestaande databases, datawarehouses, datameren, etc.
- Integreer de meest geschikte stroomverwerkingsbibliotheek met bedrijfstoepassingen en microservices.
Publiek
- ontwikkelaars
- Software architecten
Indeling van de cursus
- Deelcollege, deelbespreking, oefeningen en zware praktijkoefeningen
Notes
- Neem contact met ons op om een aangepaste training voor deze cursus aan te vragen.
Cursusaanbod
Introductie
- Stroomverwerking versus batchverwerking
- Analysegerichte streamverwerking
Overzicht Frameworks en Programming Languages
- Spark Streaming (Scala)
- Kafka Streaming (Java)
- Flink
- Storm
- Vergelijking van kenmerken en sterke punten van elk raamwerk
Overzicht van gegevensbronnen
- Live gegevens als een reeks gebeurtenissen in de loop van de tijd
- Historische gegevensbronnen
Implementatie-opties
- In de cloud (AWS, enz.)
- On-premise (private cloud, enz.)
Slag
- Opzetten van de ontwikkelomgeving
- Installeren en configureren
- Uw Data Analysis behoeften beoordelen
Een streamingframework gebruiken
- Het Streaming Framework integreren met Big Data Tools
- Gebeurtenis Stream Processing (ESP) versus verwerking van complexe gebeurtenissen (CEP)
- De invoergegevens transformeren
- Inspecteren van de uitvoergegevens
- Integratie van het Stream Processing Framework met bestaande applicaties en Microservices
Probleemoplossing
Samenvatting en conclusie
Vereisten
- Programming ervaring in elke taal
- Een goed begrip van Big Data-concepten (Hadoop, enz.)
Voor open trainingen is een minimum aantal van 5 deelnemers vereist
A Practical Introduction to Stream Processing Training Cursus - Booking
A Practical Introduction to Stream Processing Training Cursus - Enquiry
A Practical Introduction to Stream Processing - Consultancyaanvraag
Consultancyaanvraag
Testimonials (1)
Sufficient hands on, trainer is knowledgable
Chris Tan
Cursus - A Practical Introduction to Stream Processing
Voorlopige Aankomende Cursussen
Gerelateerde cursussen
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 UrenDeze cursus is bedoeld voor ontwikkelaars en datawetenschappers die AI willen begrijpen en implementeren in hun toepassingen. Er wordt speciale aandacht besteed aan data-analyse, gedistribueerde kunstmatige intelligentie en natuurlijke taalverwerking.
Apache Kafka Connect
7 UrenDeze door een instructeur geleide, live training in België (op locatie of op afstand) is gericht op ontwikkelaars die Apache Kafka willen integreren met bestaande databases en applicaties voor verwerking, analyse, enz.
Aan het einde van deze training kunnen deelnemers:
- Kafka Connect gebruiken om grote hoeveelheden data uit een database in Kafka-onderwerpen te importeren.
- Loggegevens gegenereerd door applicatieservers importeren in Kafka-onderwerpen.
- Make verzamelde gegevens beschikbaar maken voor streamverwerking.
- Gegevens uit Kafka-onderwerpen exporteren naar secundaire systemen voor opslag en analyse.
Unified Batch and Stream Processing with Apache Beam
14 UrenApache Beam is een open source, uniform programmeermodel voor het definiëren en uitvoeren van parallelle gegevensverwerkingspijplijnen. De kracht ligt in de mogelijkheid om zowel batch- als streaming-pijplijnen uit te voeren, waarbij de uitvoering wordt uitgevoerd door een van de ondersteunde gedistribueerde verwerkingsback-ends van Beam: Apache Apex, Apache Flink, Apache Spark en Google Cloud Dataflow. Apache Beam is handig voor ETL-taken (Extract, Transform en Load), zoals het verplaatsen van gegevens tussen verschillende opslagmedia en gegevensbronnen, het transformeren van gegevens naar een meer wenselijk formaat en het laden van gegevens op een nieuw systeem.
In deze live training onder leiding van een instructeur (op locatie of op afstand) leren deelnemers hoe ze de Apache Beam SDK's kunnen implementeren in een Java of Python applicatie die een gegevensverwerkingspijplijn definieert voor het opsplitsen van een grote dataset in kleinere brokken voor onafhankelijke, parallelle verwerking.
Aan het einde van deze training zijn de deelnemers in staat om:
- Installeer en configureer Apache Beam.
- Gebruik een enkel programmeermodel om zowel batch- als streamverwerking uit te voeren vanuit hun Java of Python toepassing.
- Voer pijplijnen uit in meerdere omgevingen.
Vorm van de cursus
- Deels lezing, deels discussie, oefeningen en zware hands-on oefening
Notitie
- Deze cursus zal in de toekomst beschikbaar zijn Scala. Neem contact met ons op om dit te regelen.
Building Kafka Solutions with Confluent
14 UrenDeze instructeur-geleide, live training (ter plaatse of op afstand) is gericht op ingenieurs die Confluent (een distributie van Kafka) willen gebruiken om een realtime gegevensverwerkingsplatform voor hun toepassingen te bouwen en te beheren.
Aan het einde van deze training kunnen deelnemers:
- Confluent Platform installeren en configureren.
- Confluents beheertools en -diensten gebruiken om Kafka makkelijker te runnen.
- Inkomende stroomgegevens opslaan en verwerken.
- Kafka-clusters optimaliseren en beheren.
- Datastromen beveiligen.
Indeling van de cursus
- Interactieve colleges en discussies.
- Veel oefeningen en praktijk.
- Praktische implementatie in een live-labomgeving.
Opties voor cursusaanpassing
- Deze cursus is gebaseerd op de open-source versie van Confluent: Confluent Open Source.
- Voor een aangepaste training voor deze cursus, neem contact met ons op om dit te regelen.
Apache Flink Fundamentals
28 UrenDeze live training onder leiding van een instructeur in België (online of ter plaatse) introduceert de principes en benaderingen achter gedistribueerde stream- en batchgegevensverwerking, en begeleidt deelnemers bij het maken van een real-time toepassing voor gegevensstreaming in Apache Flink.
Aan het einde van deze training zijn de deelnemers in staat om:
- Zet een omgeving op voor het ontwikkelen van toepassingen voor data-analyse.
- Begrijp hoe de grafische verwerkingsbibliotheek van Apache Flink (Gelly) werkt.
- Verpak, voer uit en bewaak op Fusen gebaseerde, fouttolerante toepassingen voor gegevensstreaming.
- Beheer diverse workloads.
- Voer geavanceerde analyses uit.
- Stel een Flink-cluster met meerdere knooppunten in.
- Meet en optimaliseer prestaties.
- Integreer Flink met verschillende Big Data systemen.
- Vergelijk de mogelijkheden van Flink met die van andere frameworks voor de verwerking van big data.
Introduction to Graph Computing
28 UrenIn deze door een instructeur geleide, live training in België, leren deelnemers over het technologieaanbod en de implementatiebenaderingen voor het verwerken van grafiekgegevens. Het doel is om objecten uit de echte wereld, hun kenmerken en relaties te identificeren, deze relaties vervolgens te modelleren en ze als gegevens te verwerken met behulp van een Graph Computing (ook bekend als Graph Analytics) benadering. We beginnen met een breed overzicht en beperken ons tot specifieke tools terwijl we een reeks casestudy's, hands-on oefeningen en live implementaties doorlopen.
Aan het einde van deze training zijn de deelnemers in staat om:
- Begrijp hoe grafiekgegevens worden bewaard en doorkruist.
- Selecteer het beste framework voor een bepaalde taak (van graph databases tot batch processing frameworks).
- Implementeer Hadoop, Spark, GraphX en Pregel om grafiekberekeningen op veel machines parallel uit te voeren.
- Bekijk real-world big data-problemen in termen van grafieken, processen en traversals.
Apache Kafka for Python Programmers
7 UrenDeze live training onder leiding van een instructeur in België (online of ter plaatse) is bedoeld voor data-engineers, datawetenschappers en programmeurs die Apache Kafka functies willen gebruiken in datastreaming met Python.
Aan het einde van deze training kunnen deelnemers Apache Kafka gebruiken om de omstandigheden in continue gegevensstromen te bewaken en te beheren met behulp van Python programmering.
Stream Processing with Kafka Streams
7 UrenKafka Streams is een client-side bibliotheek voor het bouwen van applicaties en microservices waarvan de gegevens worden doorgegeven aan en van een Kafka-berichtensysteem. Traditioneel vertrouwde Apache Kafka op Apache Spark of Apache Storm om gegevens tussen berichtproducenten en consumenten te verwerken. Door de Kafka Streams API vanuit een applicatie aan te roepen, kunnen gegevens direct in Kafka worden verwerkt, waardoor de noodzaak om de gegevens naar een afzonderlijk cluster te sturen voor verwerking wordt omzeild.
In deze live training onder leiding van een instructeur leren deelnemers hoe ze Kafka Streams kunnen integreren in een reeks voorbeeld Java applicaties die gegevens van en naar Apache Kafka doorgeven voor stroomverwerking.
Aan het einde van deze training kunnen deelnemers:
- De functies en voordelen van Kafka Streams begrijpen in vergelijking met andere stroomverwerkingsframeworks
- Stroomgegevens direct binnen een Kafka-cluster verwerken
- Een Java of Scala applicatie of microservice schrijven die geïntegreerd is met Kafka en Kafka Streams
- Concis code schrijven die invoer Kafka-onderwerpen omzet in uitvoer Kafka-onderwerpen
- De applicatie bouwen, pakketteren en implementeren
Publiek
- Ontwikkelaars
Formaat van de cursus
- Gedeeltelijk college, gedeeltelijk discussie, oefeningen en veel praktijk
Notes
- Om een aangepaste training voor deze cursus aan te vragen, neem dan contact met ons op om dit te regelen
Confluent KSQL
7 UrenDeze live training onder leiding van een instructeur in België (online of ter plaatse) is bedoeld voor ontwikkelaars die Apache Kafka streamverwerking willen implementeren zonder code te schrijven.
Aan het einde van deze training zijn de deelnemers in staat om:
- Installeer en configureer Confluent KSQL.
- Stel een stroomverwerkingspijplijn in met alleen SQL opdrachten (geen Java of Python codering).
- Voer gegevensfiltering, transformaties, aggregaties, joins, windowing en sessionization volledig uit in SQL.
- Ontwerp en implementeer interactieve, continue query's voor streaming ETL en realtime analyses.
Apache NiFi for Administrators
21 UrenIn deze live training onder leiding van een instructeur in België (ter plaatse of op afstand) leren deelnemers hoe ze Apache NiFi kunnen implementeren en beheren in een live labomgeving.
Aan het einde van deze training zijn de deelnemers in staat om:
- Installeer en configureer Apachi NiFi.
- Bron, transformeer en beheer gegevens uit ongelijksoortige, gedistribueerde gegevensbronnen, waaronder databases en big data lakes.
- Automatiseer gegevensstromen.
- Schakel streaminganalyse in.
- Pas verschillende benaderingen toe voor gegevensopname.
- Transformeer Big Data en naar zakelijke inzichten.
Apache NiFi for Developers
7 UrenIn deze door een instructeur geleide, live training in België leren deelnemers de basisprincipes van flow-based programmeren terwijl ze een aantal demo-extensies, componenten en processors ontwikkelen met behulp van Apache NiFi.
Aan het einde van deze training zijn de deelnemers in staat om:
- Begrijp de architectuur en dataflowconcepten van NiFi.
- Ontwikkel extensies met behulp van NiFi en API's van derden.
- Op maat ontwikkelen van hun eigen Apache Nifi processor.
- Neem real-time gegevens op en verwerk ze uit ongelijksoortige en ongebruikelijke bestandsindelingen en gegevensbronnen.
Python and Spark for Big Data (PySpark)
21 UrenIn deze door een instructeur geleide, live training in België, leren deelnemers hoe ze Python en Spark samen kunnen gebruiken om big data te analyseren terwijl ze werken aan praktische oefeningen.
Aan het einde van deze training zijn de deelnemers in staat om:
- Leer hoe u Spark kunt gebruiken met Python om Big Data te analyseren.
- Werk aan oefeningen die gevallen uit de echte wereld nabootsen.
- Gebruik verschillende tools en technieken voor big data-analyse met behulp van PySpark.
Spark Streaming with Python and Kafka
7 UrenDeze live training onder leiding van een instructeur in België (online of ter plaatse) is bedoeld voor data-engineers, datawetenschappers en programmeurs die Spark Streaming functies willen gebruiken bij het verwerken en analyseren van realtime gegevens.
Aan het einde van deze training zijn deelnemers in staat om Spark Streaming te gebruiken om live datastromen te verwerken voor gebruik in databases, bestandssystemen en live dashboards.
Apache Spark MLlib
35 UrenMLlib is Spark's machine learning (ML) bibliotheek. Het doel is om praktische machine learning schaalbaar en eenvoudig te maken. Het bestaat uit algemene leeralgoritmen en hulpprogramma's, waaronder classificatie, regressie, clustering, collaboratieve filtering, vermindering van de dimensionaliteit, evenals optimalisatieprimitieven op een lager niveau en pijplijn-API's op een hoger niveau.
Het is verdeeld in twee pakketten:
spark.mllib bevat de originele API gebouwd bovenop RDD's.
spark.ml biedt een API op een hoger niveau gebouwd bovenop DataFrames voor het construeren van ML-pijpleidingen.
Publiek
Deze cursus is bedoeld voor ingenieurs en ontwikkelaars die een ingebouwde machinebibliotheek voor Apache Spark