Apache Spark in the Cloud Training Cursus
Apache Spark leercurve van Apache Spark neemt in het begin langzaam toe, het kost veel inspanning om het eerste rendement te behalen. Deze cursus is bedoeld om door het eerste moeilijke gedeelte te springen. Na het volgen van deze cursus zullen de deelnemers de basisprincipes van Apache Spark begrijpen, ze zullen RDD duidelijk onderscheiden van DataFrame, ze zullen Python en Scala API leren kennen, ze zullen uitvoerders en taken begrijpen, etc. Ook volgens de best practices richt deze cursus zich sterk op cloud-implementatie, Databricks en AWS. De studenten zullen ook de verschillen begrijpen tussen AWS EMR en AWS Glue, een van de nieuwste Spark-services van AWS.
PUBLIEK:
Data Engineer, DevOps , Data Scientist
Cursusaanbod
Introductie:
- Apache Spark in Hadoop Ecosysteem
- Korte intro voor python, scala
Basis (theorie):
- Architectuur
- RDD
- Transformatie en acties
- Fase, taak, afhankelijkheden
Met behulp van Databricks omgeving begrijp je de basis (hands-on workshop):
- Oefeningen met behulp van RDD API
- Basisfuncties voor actie en transformatie
- PairRDD
- Verbinden
- Strategieën voor caching
- Oefeningen met behulp van de DataFrame-API
- VonkSQL
- DataFrame: selecteren, filteren, groeperen, sorteren
- UDF (door de gebruiker gedefinieerde functie)
- Kijken naar DataSet API
- Streaming
Met behulp van AWS-omgeving inzicht in de implementatie (hands-on workshop):
- Basisprincipes van AWS-lijm
- Begrijp de verschillen tussen AWS EMR en AWS Glue
- Voorbeeldtaken in beide omgevingen
- Begrijp de voor- en nadelen
Extra:
- Inleiding tot Apache Airflow orkestratie
Vereisten
Programmeervaardigheden (bij voorkeur Python, Scala)
SQL basis
Voor open trainingen is een minimum aantal van 5 deelnemers vereist
Apache Spark in the Cloud Training Cursus - Booking
Apache Spark in the Cloud Training Cursus - Enquiry
Apache Spark in the Cloud - Consultancyaanvraag
Consultancyaanvraag
Testimonials (3)
Having hands on session / assignments
Poornima Chenthamarakshan - Intelligent Medical Objects
Cursus - Apache Spark in the Cloud
1. Right balance between high level concepts and technical details. 2. Andras is very knowledgeable about his teaching. 3. Exercise
Steven Wu - Intelligent Medical Objects
Cursus - Apache Spark in the Cloud
Get to learn spark streaming , databricks and aws redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Cursus - Apache Spark in the Cloud
Voorlopige Aankomende Cursussen
Gerelateerde cursussen
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 UrenDeze cursus is bedoeld voor ontwikkelaars en datawetenschappers die AI willen begrijpen en implementeren in hun toepassingen. Er wordt speciale aandacht besteed aan data-analyse, gedistribueerde kunstmatige intelligentie en natuurlijke taalverwerking.
Big Data Analytics with Google Colab and Apache Spark
14 UrenDeze live training onder leiding van een instructeur in België (online of ter plaatse) is bedoeld voor datawetenschappers en -ingenieurs van gemiddeld niveau die Google Colab en Apache Spark willen gebruiken voor de verwerking en analyse van big data.
Aan het einde van deze training zijn de deelnemers in staat om:
- Zet een big data-omgeving op met behulp van Google Colab en Spark.
- Verwerk en analyseer grote datasets efficiënt met Apache Spark.
- Visualiseer big data in een samenwerkingsomgeving.
- Integreer Apache Spark met cloudgebaseerde tools.
Big Data Analytics in Health
21 UrenBig data-analyse omvat het proces van het onderzoeken van grote hoeveelheden gevarieerde gegevenssets om correlaties, verborgen patronen en andere nuttige inzichten te ontdekken.
De gezondheidsindustrie heeft enorme hoeveelheden complexe heterogene medische en klinische gegevens. Het toepassen van big data-analyses op gezondheidsgegevens biedt een enorm potentieel voor het verkrijgen van inzichten voor het verbeteren van de gezondheidszorg. De enorme omvang van deze datasets vormt echter grote uitdagingen bij analyses en praktische toepassingen in een klinische omgeving.
In deze door een instructeur geleide, live training (op afstand), leren deelnemers hoe ze big data-analyses in gezondheid kunnen uitvoeren terwijl ze een reeks praktische live-laboefeningen doorlopen.
Aan het einde van deze training kunnen deelnemers:
- Installeer en configureer big data-analysehulpmiddelen zoals Hadoop MapReduce en Spark
- Begrijp de kenmerken van medische gegevens
- Pas big data-technieken toe om met medische gegevens om te gaan
- Bestudeer big data-systemen en algoritmen in het kader van gezondheidstoepassingen
Publiek
- ontwikkelaars
- Data Scientists
Indeling van de cursus
- Deelcollege, deelbespreking, oefeningen en zware praktijkoefeningen.
Notitie
- Neem contact met ons op om een aangepaste training voor deze cursus aan te vragen.
Introduction to Graph Computing
28 UrenIn deze door een instructeur geleide, live training in België, leren deelnemers over het technologieaanbod en de implementatiebenaderingen voor het verwerken van grafiekgegevens. Het doel is om objecten uit de echte wereld, hun kenmerken en relaties te identificeren, deze relaties vervolgens te modelleren en ze als gegevens te verwerken met behulp van een Graph Computing (ook bekend als Graph Analytics) benadering. We beginnen met een breed overzicht en beperken ons tot specifieke tools terwijl we een reeks casestudy's, hands-on oefeningen en live implementaties doorlopen.
Aan het einde van deze training zijn de deelnemers in staat om:
- Begrijp hoe grafiekgegevens worden bewaard en doorkruist.
- Selecteer het beste framework voor een bepaalde taak (van graph databases tot batch processing frameworks).
- Implementeer Hadoop, Spark, GraphX en Pregel om grafiekberekeningen op veel machines parallel uit te voeren.
- Bekijk real-world big data-problemen in termen van grafieken, processen en traversals.
Hadoop and Spark for Administrators
35 UrenDeze instructeur-geleide, live training in België (op locatie of op afstand) is gericht op systeembeheerders die willen leren hoe ze clusters binnen hun organisatie kunnen opzetten, implementeren en beheren.
Aan het einde van deze training kunnen deelnemers:
- Installeer en configureer Apache Hadoop.
- Begrijp de vier belangrijkste componenten in het Hadoop-ecosysteem: HDFS, MapReduce, YARN en Hadoop Common.
- Gebruik Hadoop Distributed File System (HDFS) om een cluster te schalen naar honderden of duizenden knooppunten.
- Stel HDFS in om te functioneren als opslagengine voor on-premise Spark-implementaties.
- Stel Spark in voor toegang tot alternatieve opslagoplossingen zoals Amazon S3 en NoSQL databasesystemen zoals Redis, Elasticsearch, Couchbase, Aerospike, enz.
- Voer administratieve taken uit zoals het inrichten, beheren, monitoren en beveiligen van een Apache Hadoop-cluster.
Hortonworks Data Platform (HDP) for Administrators
21 UrenDeze live training onder leiding van een instructeur in België (online of ter plaatse) introduceert Hortonworks Data Platform (HDP) en leidt deelnemers door de implementatie van de Spark + Hadoop-oplossing.
Aan het einde van deze training zijn de deelnemers in staat om:
- Gebruik Hortonworks om op grote schaal betrouwbaar Hadoop uit te voeren.
- Integreer de beveiligings-, governance- en operationele mogelijkheden van Hadoop met de flexibele analytische workflows van Spark.
- Gebruik Hortonworks om elk van de componenten in een Spark-project te onderzoeken, te valideren, te certificeren en te ondersteunen.
- Verwerk verschillende soorten gegevens, waaronder gestructureerde, ongestructureerde, in-beweging en stilstaande gegevens.
A Practical Introduction to Stream Processing
21 UrenIn deze door een instructeur geleide, live training in België (op locatie of op afstand), leren deelnemers hoe ze verschillende Stream Processing raamwerken kunnen opzetten en integreren met bestaande big data-opslagsystemen en gerelateerde softwareapplicaties en microservices.
Aan het einde van deze training kunnen deelnemers:
- Installeer en configureer verschillende Stream Processing frameworks, zoals Spark Streaming en Kafka Streaming.
- Begrijp en selecteer het meest geschikte raamwerk voor de taak.
- Verwerken van gegevens continu, gelijktijdig en record voor record.
- Integreer Stream Processing oplossingen met bestaande databases, datawarehouses, datameren, enz.
- Integreer de meest geschikte bibliotheek voor streamverwerking met bedrijfsapplicaties en microservices.
SMACK Stack for Data Science
14 UrenDeze door een instructeur geleide, live training (op locatie of op afstand) is gericht op datawetenschappers die de SMACK-stack willen gebruiken om dataverwerkingsplatforms voor big data-oplossingen te bouwen.
Aan het einde van deze training kunnen deelnemers:
- Implementeer een datapijplijnarchitectuur voor het verwerken van big data.
- Ontwikkel een clusterinfrastructuur met Apache Mesos en Docker.
- Analyseer gegevens met Spark en Scala.
- Beheer ongestructureerde gegevens met Apache Cassandra.
Apache Spark Fundamentals
21 UrenDeze instructeur-geleide, live training in België (op locatie of op afstand) is gericht op ingenieurs die een Apache Spark systeem willen opzetten en implementeren voor het verwerken van zeer grote hoeveelheden gegevens.
Aan het einde van deze training kunnen deelnemers:
- Installeer en configureer Apache Spark.
- Verwerk en analyseer snel zeer grote datasets.
- Begrijp het verschil tussen Apache Spark en Hadoop MapReduce en wanneer u welke moet gebruiken.
- Integreer Apache Spark met andere machine learning-tools.
Administration of Apache Spark
35 UrenDeze live training onder leiding van een instructeur in België (online of op locatie) is bedoeld voor beginnende tot gemiddelde systeembeheerders die Spark-clusters willen implementeren, onderhouden en optimaliseren.
Aan het einde van deze training zijn de deelnemers in staat om:
- Installeer en configureer Apache Spark in verschillende omgevingen.
- Clusterresources beheren en Spark-toepassingen bewaken.
- Optimaliseer de prestaties van Spark-clusters.
- Implementeer beveiligingsmaatregelen en zorg voor een hoge beschikbaarheid.
- Veelvoorkomende problemen met Spark opsporen en oplossen.
Spark for Developers
21 UrenDOELSTELLING:
Deze cursus introduceert Apache Spark . De studenten leren hoe Spark past in het Big Data ecosysteem en hoe Spark gebruikt kan worden voor data-analyse. De cursus behandelt Spark shell voor interactieve gegevensanalyse, Spark internals, Spark API's, Spark SQL , Spark streaming en machine learning en graphX.
PUBLIEK :
Ontwikkelaars / gegevensanalisten
Scaling Data Pipelines with Spark NLP
14 UrenDeze live training onder leiding van een instructeur in België (online of ter plaatse) is bedoeld voor datawetenschappers en -ontwikkelaars die Spark NLP, gebouwd op Apache Spark, willen gebruiken om tekstverwerkingsmodellen en pijplijnen in natuurlijke taal te ontwikkelen, implementeren en schalen.
Aan het einde van deze training zijn de deelnemers in staat om:
- Zet de benodigde ontwikkelomgeving op om NLP-pijplijnen te gaan bouwen met Spark NLP.
- Krijg inzicht in de functies, architectuur en voordelen van het gebruik van Spark NLP.
- Gebruik de vooraf getrainde modellen die beschikbaar zijn in Spark NLP om tekstverwerking te implementeren.
- Leer hoe u modellen Spark NLP bouwt, traint en schaalt voor projecten van productiekwaliteit.
- Pas classificatie-, inferentie- en sentimentanalyse toe op real-world gebruiksscenario's (klinische gegevens, inzichten in klantgedrag, enz.).
Python and Spark for Big Data (PySpark)
21 UrenIn deze door een instructeur geleide, live training in België, leren deelnemers hoe ze Python en Spark samen kunnen gebruiken om big data te analyseren terwijl ze werken aan praktische oefeningen.
Aan het einde van deze training zijn de deelnemers in staat om:
- Leer hoe u Spark kunt gebruiken met Python om Big Data te analyseren.
- Werk aan oefeningen die gevallen uit de echte wereld nabootsen.
- Gebruik verschillende tools en technieken voor big data-analyse met behulp van PySpark.
Python, Spark, and Hadoop for Big Data
21 UrenDeze live training in België onder leiding van een instructeur (online of op locatie) is bedoeld voor ontwikkelaars die Spark, Hadoop en Python willen gebruiken en integreren om grote en complexe datasets te verwerken, analyseren en transformeren.
Aan het einde van deze training zijn de deelnemers in staat om:
- Zet de benodigde omgeving in om te beginnen met het verwerken van big data met Spark, Hadoop en Python.
- Krijg inzicht in de functies, kernonderdelen en architectuur van Spark en Hadoop.
- Leer hoe u Spark, Hadoop en Python kunt integreren voor de verwerking van big data.
- Verken de tools in het Spark-ecosysteem (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka en Flume).
- Bouw gezamenlijke filteraanbevelingssystemen die vergelijkbaar zijn met Netflix, YouTube, Amazon, Spotify en Google.
- Gebruik Apache Mahout om machine learning-algoritmen te schalen.
Apache Spark MLlib
35 UrenMLlib is Spark's machine learning (ML) bibliotheek. Het doel is om praktische machine learning schaalbaar en eenvoudig te maken. Het bestaat uit algemene leeralgoritmen en hulpprogramma's, waaronder classificatie, regressie, clustering, collaboratieve filtering, vermindering van de dimensionaliteit, evenals optimalisatieprimitieven op een lager niveau en pijplijn-API's op een hoger niveau.
Het is verdeeld in twee pakketten:
spark.mllib bevat de originele API gebouwd bovenop RDD's.
spark.ml biedt een API op een hoger niveau gebouwd bovenop DataFrames voor het construeren van ML-pijpleidingen.
Publiek
Deze cursus is bedoeld voor ingenieurs en ontwikkelaars die een ingebouwde machinebibliotheek voor Apache Spark