SMACK Stack for Data Science Training Cursus
SMACK is een verzameling van gegevensplatformsoftware, namelijk Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra, en Apache Kafka. Met behulp van de SMACK stack kunnen gebruikers gegevensverwerkingsplatforms creëren en scalen.
Deze instructeur geleide, live training (online of on-site) is gericht op data wetenschappers die de SMACK stack willen gebruiken om gegevensverwerkingsplatforms voor big data oplossingen te bouwen.
Aan het einde van deze training zullen de deelnemers in staat zijn:
- Het implementeren van een data pipeline architectuur voor het verwerken van grote gegevens.
- Ontwikkel een clusterinfrastructuur met Apache Mesos en Docker.
- Analyseer gegevens met Spark en Scala.
- Het beheer van onstructureerde gegevens met Apache Cassandra.
Format van de cursus
- Interactieve lezingen en discussie.
- Veel oefeningen en oefeningen.
- Hand-on implementatie in een live-lab-omgeving.
Cursus aanpassingsopties
- Om een aangepaste training voor deze cursus te vragen, neem dan contact met ons op om te organiseren.
Cursusaanbod
Introductie
Overzicht SMACK Stack
- Wat is Apache Spark? Apache Spark Kenmerken
- Wat is Apache Mesos? Apache Mesos Kenmerken
- Wat is Apache Akka? Apache Akka kenmerken
- Wat is Apache Cassandra? Apache Cassandra kenmerken
- Wat is Apache Kafka? Apache Kafka Kenmerken
Scala Taal
- Scala Syntaxis en structuur
- Scala Regelstroom
Voorbereiding van de ontwikkelingsomgeving
- De SMACK-stack installeren en configureren
- Installeren en configureren Docker
Apache Akka
- Acteurs gebruiken
Apache Cassandra
- Een database maken voor leesbewerkingen
- Werken met back-ups en herstel
Verbindingslijnen
- Een stream maken
- Een Akka-toepassing bouwen
- Gegevens opslaan met Cassandra
- Connectoren beoordelen
Apache Kafka
- Werken met clusters
- Berichten maken, publiceren en consumeren
Apache Mesos
- Toewijzing van middelen
- Clusters uitvoeren
- Werken met Apache Aurora en Docker
- Diensten en taken uitvoeren
- Spark, Cassandra en Kafka inzetten op Mesos
Apache Spark
- Gegevensstromen beheren
- Werken met RDD's en dataframes
- Uitvoeren van data-analyse
Probleemoplossing
- Afhandeling van uitval van services en fouten
Samenvatting en conclusie
Vereisten
- Inzicht in gegevensverwerkingssystemen
Publiek
- Datawetenschappers
Voor open trainingen is een minimum aantal van 5 deelnemers vereist
SMACK Stack for Data Science Training Cursus - Booking
SMACK Stack for Data Science Training Cursus - Enquiry
SMACK Stack for Data Science - Consultancyaanvraag
Consultancyaanvraag
Testimonials (1)
very interactive...
Richard Langford
Cursus - SMACK Stack for Data Science
Voorlopige Aankomende Cursussen
Gerelateerde cursussen
Introduction to Data Science and AI using Python
35 UrenDit is een 5-daagse inleiding tot Data Science en AI.
De cursus wordt geleverd met voorbeelden en oefeningen met Python
Apache Airflow for Data Science: Automating Machine Learning Pipelines
21 UrenDeze live training onder leiding van een instructeur in België (online of ter plaatse) is bedoeld voor deelnemers van gemiddeld niveau die machine learning-workflows willen automatiseren en beheren, inclusief modeltraining, validatie en implementatie met behulp van Apache Airflow.
Aan het einde van deze training zijn de deelnemers in staat om:
- Stel Apache Airflow in voor machine learning-werkstroomorkestratie.
- Automatiseer gegevensverwerking, modeltraining en validatietaken.
- Integreer Airflow met machine learning-frameworks en -tools.
- Implementeer machine learning-modellen met behulp van geautomatiseerde pijplijnen.
- Bewaak en optimaliseer machine learning-workflows in productie.
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 UrenDeze cursus is bedoeld voor ontwikkelaars en datawetenschappers die AI willen begrijpen en implementeren in hun toepassingen. Er wordt speciale aandacht besteed aan data-analyse, gedistribueerde kunstmatige intelligentie en natuurlijke taalverwerking.
Anaconda Ecosystem for Data Scientists
14 UrenDeze live training onder leiding van een instructeur in België (online of ter plaatse) is bedoeld voor datawetenschappers die het Anaconda-ecosysteem willen gebruiken om pakketten en workflows voor gegevensanalyse vast te leggen, te beheren en te implementeren in één enkel platform.
Aan het einde van deze training zijn de deelnemers in staat om:
- Installeer en configureer Anaconda componenten en bibliotheken.
- Begrijp de kernconcepten, kenmerken en voordelen van Anaconda.
- Beheer pakketten, omgevingen en kanalen met behulp van Anaconda Navigator.
- Gebruik Conda-, R- en Python-pakketten voor datawetenschap en machine learning.
- Maak kennis met enkele praktische use cases en technieken voor het beheren van meerdere data-omgevingen.
AWS Cloud9 for Data Science
28 UrenDeze live training onder leiding van een instructeur in België (online of ter plaatse) is bedoeld voor datawetenschappers en analisten van gemiddeld niveau die AWS Cloud9 willen gebruiken voor gestroomlijnde data science-workflows.
Aan het einde van deze training zijn de deelnemers in staat om:
- Zet een data science omgeving op in AWS Cloud9.
- Voer gegevensanalyse uit met behulp van Python, R en Jupyter Notebook in Cloud9.
- Integreer AWS Cloud9 met AWS-dataservices zoals S3, RDS en Redshift.
- Gebruik AWS Cloud9 voor de ontwikkeling en implementatie van machine learning-modellen.
- Optimaliseer cloudgebaseerde workflows voor gegevensanalyse en -verwerking.
Big Data Business Intelligence for Telecom and Communication Service Providers
35 UrenOverzicht
Communications service providers (CSP) worden geconfronteerd met druk om kosten te verminderen en gemiddelde inkomsten per gebruiker (ARPU) te maximaliseren, terwijl een uitstekende klantervaring wordt gewaarborgd, maar gegevensvolumes blijven groeien. Het wereldwijde mobiele gegevensverkeer zal groeien bij een gecombineerde jaarlijkse groei (CAGR) van 78 procent tegen 2016, tot 10,8 exabytes per maand.
Ondertussen genereren CSP's grote hoeveelheden gegevens, waaronder call details records (CDR), netwerkgegevens en klantgegevens. Bedrijven die deze gegevens volledig exploiteren, krijgen een concurrentievoordeel. Volgens een recente enquête van The Economist Intelligence Unit, bedrijven die gebruik maken van data-gerichte besluitvorming genieten een 5-6% boost in productiviteit. Maar 53% van de bedrijven gebruikt slechts de helft van hun waardevolle gegevens, en een kwart van de respondenten merkte op dat enorme hoeveelheden nuttige gegevens niet worden vervuld. De gegevensvolumes zijn zo hoog dat handmatige analyse onmogelijk is, en de meeste erfgoedsoftware-systemen kunnen niet ophouden, wat resulteert in waardevolle gegevens die worden weggegooid of verwaarloosd.
Met Big Data & Analytics’ high-speed, scalable big data software, CSP's kunnen al hun gegevens mineren voor betere besluitvorming in minder tijd. Verschillende Big Data producten en technieken bieden een end-to-end softwareplatform voor het verzamelen, voorbereiden, analyseren en presenteren van inzichten uit grote gegevens. De toepassingsgebieden omvatten netwerkprestaties monitoring, fraude detectie, klantchurns detectie en kredietrisico-analyse. Big Data & Analytics producten schaal om terabytes van gegevens te beheren, maar de implementatie van dergelijke tools vereist een nieuwe vorm van cloud-gebaseerde database systeem zoals Hadoop of massieve schaal parallelle computing processor (KPU etc.)
Deze cursus werkt op Big Data BI voor Telco omvat alle opkomende nieuwe gebieden waarin CSP's investeren om productiviteit te vergroten en nieuwe bedrijfsinkomsten te openen. De cursus biedt een volledige 360 graden overzicht op Big Data BI in Telco zodat besluitvormers en managers een zeer brede en uitgebreide overzicht van de mogelijkheden van Big Data BI in Telco voor productiviteit en inkomen winst.
Cursus doelstellingen
Het belangrijkste doel van de cursus is om nieuwe Big Data business intelligence technieken te introduceren in 4 sectoren van Telecom Business (Marketing/Sales, Network Operation, Financial Operation en Customer Relation Management). Studenten worden geïntroduceerd om te volgen:
- Introductie tot Big Data-wat is 4Vs (volume, snelheid, variëteit en waarheid) in Big Data- Generatie, extractie en beheer vanuit Telco perspectief
- Hoe Big Data analytic verschilt van legacy data analytic
- In-house rechtvaardiging van Big Data -Telco perspectief
- Introductie tot Hadoop Ecosystem- bekendheid met alle Hadoop tools zoals Hive, Pig, SPARC – wanneer en hoe ze worden gebruikt om het probleem op te lossen Big Data
- Hoe Big Data wordt verkregen om te analyseren voor analyse tool-hoe Business Analysis’s kunnen hun pijnpunten van het verzamelen en analyseren van gegevens door middel van geïntegreerde Hadoop dashboard benadering te verminderen
- Basiskennis van Insight-analyse, visualisatie-analyse en predictieve analyse voor Telco
- Customer Churn-analyse en Big Data-how Big Data-analyse kunnen klantchurn en klantongeluk verminderen in Telco-case studies
- Analyse van netwerkfalen en servicefalen van netwerkmetadata en IPDR
- Financiële analyse-fraude, wastage en ROI-schatting uit verkoop- en operationele gegevens
- Customer acquisition problem-Target marketing, klantsegmentatie en cross-sales van verkoopgegevens
- Introductie en samenvatting van alle Big Data analytische producten en waar ze passen in de analytische ruimte van Telco
- Conclusie - hoe stap voor stap een benadering te nemen om Big Data Business Intelligence in uw organisatie te introduceren
Gericht publiek
- Netwerkbeheer, Financieel Manager, CRM-managers en top IT-managers in Telco CIO-kantoor.
- Business Analisten in Telco
- CFO kantoormanagers / analisten
- Operatieve managers
- QA Managers
Introduction to Google Colab for Data Science
14 UrenDeze live training onder leiding van een instructeur in België (online of ter plaatse) is bedoeld voor datawetenschappers en IT-professionals op beginnersniveau die de basis van datawetenschap willen leren met behulp van Google Colab.
Aan het einde van deze training zijn de deelnemers in staat om:
- Stel in en navigeer naar Google Colab.
- Schrijven en uitvoeren van basis Python code.
- Gegevenssets importeren en verwerken.
- Maak visualisaties met behulp van Python bibliotheken.
A Practical Introduction to Data Science
35 UrenDeelnemers die deze training voltooien, krijgen een praktisch, realistisch inzicht in Data Science en de bijbehorende technologieën, methodologieën en hulpmiddelen.
Deelnemers krijgen de kans om deze kennis in de praktijk te brengen door middel van praktische oefeningen. Groepsinteractie en feedback van de instructeur vormen een belangrijk onderdeel van de klas.
De cursus begint met een inleiding tot de elementaire concepten van Data Science en gaat vervolgens verder met de hulpmiddelen en methodologieën die in Data Science worden gebruikt.
Audiëntie
- Ontwikkelaars
- Technische analisten
- IT-adviseurs
Vorm van de cursus
- Deels lezing, deels discussie, oefeningen en zware hands-on oefening
Notitie
- Om een training op maat voor deze cursus aan te vragen, neem dan contact met ons op om een afspraak te maken.
Data Science Programme
245 UrenDe explosie van informatie en data in de wereld van vandaag is ongeëvenaard; ons vermogen om te innoveren en de grenzen van het mogelijke te verleggen groeit sneller dan ooit tevoren. De rol van Data Scientist is tegenwoordig een van de meest gevraagde vaardigheden in de industrie.
Wij bieden veel meer dan leren via theorie; wij leveren praktische, verkoopbare vaardigheden die de kloof overbruggen tussen de wereld van de academische wereld en de eisen van de industrie.
Dit curriculum van 7 weken kan worden afgestemd op uw specifieke branchevereisten. Neem contact met ons op voor meer informatie of bezoek de website van het Nobleprog Instituut
Publiek:
Dit programma is bedoeld voor afgestudeerden op postniveau en voor iedereen met de vereiste vereiste vaardigheden, die zullen worden bepaald door een beoordeling en een interview.
Levering:
De cursus wordt gegeven een mix van Instructor Led Classroom en Instructor Led Online; normaal gesproken zal de eerste week 'klassikaal geleid' zijn, weken 2 - 6 'virtueel klaslokaal' en week 7 terug naar 'klassikaal geleid'.
Introduction to Graph Computing
28 UrenIn deze door een instructeur geleide, live training in België, leren deelnemers over het technologieaanbod en de implementatiebenaderingen voor het verwerken van grafiekgegevens. Het doel is om objecten uit de echte wereld, hun kenmerken en relaties te identificeren, deze relaties vervolgens te modelleren en ze als gegevens te verwerken met behulp van een Graph Computing (ook bekend als Graph Analytics) benadering. We beginnen met een breed overzicht en beperken ons tot specifieke tools terwijl we een reeks casestudy's, hands-on oefeningen en live implementaties doorlopen.
Aan het einde van deze training zijn de deelnemers in staat om:
- Begrijp hoe grafiekgegevens worden bewaard en doorkruist.
- Selecteer het beste framework voor een bepaalde taak (van graph databases tot batch processing frameworks).
- Implementeer Hadoop, Spark, GraphX en Pregel om grafiekberekeningen op veel machines parallel uit te voeren.
- Bekijk real-world big data-problemen in termen van grafieken, processen en traversals.
Kaggle
14 UrenDeze live training onder leiding van een instructeur in België (online of ter plaatse) is bedoeld voor datawetenschappers en -ontwikkelaars die willen leren en hun carrière willen opbouwen in Data Science met behulp van Kaggle.
Aan het einde van deze training zijn de deelnemers in staat om:
- Meer informatie over datawetenschap en machine learning.
- Verken data-analyse.
- Lees meer over Kaggle en hoe het werkt.
Accelerating Python Pandas Workflows with Modin
14 UrenDeze live training onder leiding van een instructeur in België (online of ter plaatse) is bedoeld voor datawetenschappers en -ontwikkelaars die Modin willen gebruiken om parallelle berekeningen te bouwen en te implementeren met Pandas voor snellere data-analyse.
Aan het einde van deze training zijn de deelnemers in staat om:
- Zet de benodigde omgeving op om te beginnen met het ontwikkelen van Pandas workflows op schaal met Modin.
- Begrijp de functies, architectuur en voordelen van Modin.
- Ken de verschillen tussen Modin, Dask en Ray.
- Voer Pandas bewerkingen sneller uit met Modin.
- Implementeer de volledige Pandas API en functies.
GPU Data Science with NVIDIA RAPIDS
14 UrenDeze live training onder leiding van een instructeur in België (online of ter plaatse) is bedoeld voor datawetenschappers en -ontwikkelaars die RAPIDS willen gebruiken om GPU-versnelde datapijplijnen, workflows en visualisaties te bouwen, waarbij machine learning-algoritmen worden toegepast, zoals XGBoost, cuML, enz.
Aan het einde van deze training zijn de deelnemers in staat om:
- Zet de benodigde ontwikkelomgeving op om datamodellen te bouwen met NVIDIA RAPIDS.
- Begrijp de kenmerken, componenten en voordelen van RAPIDS.
- Maak gebruik van GPUs om end-to-end data- en analysepijplijnen te versnellen.
- Implementeer GPU-versnelde gegevensvoorbereiding en ETL met cuDF en Apache Arrow.
- Leer hoe u machine learning-taken uitvoert met XGBoost- en cuML-algoritmen.
- Bouw datavisualisaties en voer grafiekanalyses uit met cuXfilter en cuGraph.
Python and Spark for Big Data (PySpark)
21 UrenIn deze door een instructeur geleide, live training in België, leren deelnemers hoe ze Python en Spark samen kunnen gebruiken om big data te analyseren terwijl ze werken aan praktische oefeningen.
Aan het einde van deze training zijn de deelnemers in staat om:
- Leer hoe u Spark kunt gebruiken met Python om Big Data te analyseren.
- Werk aan oefeningen die gevallen uit de echte wereld nabootsen.
- Gebruik verschillende tools en technieken voor big data-analyse met behulp van PySpark.
Apache Spark MLlib
35 UrenMLlib is Spark's machine learning (ML) bibliotheek. Het doel is om praktische machine learning schaalbaar en eenvoudig te maken. Het bestaat uit algemene leeralgoritmen en hulpprogramma's, waaronder classificatie, regressie, clustering, collaboratieve filtering, vermindering van de dimensionaliteit, evenals optimalisatieprimitieven op een lager niveau en pijplijn-API's op een hoger niveau.
Het is verdeeld in twee pakketten:
spark.mllib bevat de originele API gebouwd bovenop RDD's.
spark.ml biedt een API op een hoger niveau gebouwd bovenop DataFrames voor het construeren van ML-pijpleidingen.
Publiek
Deze cursus is bedoeld voor ingenieurs en ontwikkelaars die een ingebouwde machinebibliotheek voor Apache Spark