Programming with Big Data in R Training Cursus
Big Data is een term die verwijst naar oplossingen die zijn bedoeld voor het opslaan en verwerken van grote gegevenssets. Go eerste instantie ontwikkeld door Go ogle, hebben deze Big Data oplossingen andere vergelijkbare projecten ontwikkeld en geïnspireerd, waarvan vele beschikbaar zijn als open-source. R is een populaire programmeertaal in de financiële sector.
Cursusaanbod
Inleiding tot Programming Big Data met R (bpdR)
- Uw omgeving instellen voor het gebruik van pbdR
- Reikwijdte en hulpmiddelen beschikbaar in pbdR
- Pakketten die vaak worden gebruikt met Big Data naast pbdR
Interface voor het doorgeven van berichten (MPI)
- PbdR MPI gebruiken 5
- Parallelle verwerking
- Point-to-point communicatie
- Matrixen verzenden
- Optelmatrices
- Collectieve communicatie
- Matrices optellen met Reduce
- Verstrooien/verzamelen
- Andere MPI-communicatie
Gedistribueerde matrixen
- Een gedistribueerde diagonale matrix creëren
- SVD van een gedistribueerde matrix
- Parallel bouwen van een gedistribueerde matrix
Statistics Toepassingen
- Monte Carlo-integratie
- Gegevenssets lezen
- Lezen over alle processen
- Uitzenden vanuit één proces
- Gepartitioneerde gegevens lezen
- Gedistribueerde regressie
- Gedistribueerd Bootstrap
Voor open trainingen is een minimum aantal van 5 deelnemers vereist
Programming with Big Data in R Training Cursus - Booking
Programming with Big Data in R Training Cursus - Enquiry
Programming with Big Data in R - Consultancyaanvraag
Consultancyaanvraag
Testimonials (2)
The subject matter and the pace were perfect.
Tim - Ottawa Research and Development Center, Science Technology Branch, Agriculture and Agri-Food Canada
Cursus - Programming with Big Data in R
Michael the trainer is very knowledgeable and skillful about the subject of Big Data and R. He is very flexible and quickly customize the training meeting clients' need. He is also very capable to solve technical and subject matter problems on the go. Fantastic and professional training!.
Xiaoyuan Geng - Ottawa Research and Development Center, Science Technology Branch, Agriculture and Agri-Food Canada
Cursus - Programming with Big Data in R
Voorlopige Aankomende Cursussen
Gerelateerde cursussen
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 UrenDeze cursus is bedoeld voor ontwikkelaars en datawetenschappers die AI willen begrijpen en implementeren in hun toepassingen. Er wordt speciale aandacht besteed aan data-analyse, gedistribueerde kunstmatige intelligentie en natuurlijke taalverwerking.
Unified Batch and Stream Processing with Apache Beam
14 UrenApache Beam is een open source, uniform programmeermodel voor het definiëren en uitvoeren van parallelle gegevensverwerkingspijplijnen. De kracht ligt in de mogelijkheid om zowel batch- als streaming-pijplijnen uit te voeren, waarbij de uitvoering wordt uitgevoerd door een van de ondersteunde gedistribueerde verwerkingsback-ends van Beam: Apache Apex, Apache Flink, Apache Spark en Google Cloud Dataflow. Apache Beam is handig voor ETL-taken (Extract, Transform en Load), zoals het verplaatsen van gegevens tussen verschillende opslagmedia en gegevensbronnen, het transformeren van gegevens naar een meer wenselijk formaat en het laden van gegevens op een nieuw systeem.
In deze live training onder leiding van een instructeur (op locatie of op afstand) leren deelnemers hoe ze de Apache Beam SDK's kunnen implementeren in een Java of Python applicatie die een gegevensverwerkingspijplijn definieert voor het opsplitsen van een grote dataset in kleinere brokken voor onafhankelijke, parallelle verwerking.
Aan het einde van deze training zijn de deelnemers in staat om:
- Installeer en configureer Apache Beam.
- Gebruik een enkel programmeermodel om zowel batch- als streamverwerking uit te voeren vanuit hun Java of Python toepassing.
- Voer pijplijnen uit in meerdere omgevingen.
Vorm van de cursus
- Deels lezing, deels discussie, oefeningen en zware hands-on oefening
Notitie
- Deze cursus zal in de toekomst beschikbaar zijn Scala. Neem contact met ons op om dit te regelen.
Data Vault: Building a Scalable Data Warehouse
28 UrenIn deze live training onder leiding van een instructeur in België leren deelnemers hoe ze een Data Vault kunnen bouwen.
Aan het einde van deze training zijn de deelnemers in staat om:
- Begrijp de architectuur- en ontwerpconcepten achter Data Vault 2.0 en de interactie met Big Data, NoSQL en AI.
- Gebruik technieken voor het opslaan van gegevens om controles, traceringen en inspecties van historische gegevens in een datawarehouse mogelijk te maken.
- Ontwikkel een consistent en herhaalbaar ETL-proces (Extract, Transform, Load).
- Bouw en implementeer zeer schaalbare en herhaalbare magazijnen.
Apache Flink Fundamentals
28 UrenDeze live training onder leiding van een instructeur in België (online of ter plaatse) introduceert de principes en benaderingen achter gedistribueerde stream- en batchgegevensverwerking, en begeleidt deelnemers bij het maken van een real-time toepassing voor gegevensstreaming in Apache Flink.
Aan het einde van deze training zijn de deelnemers in staat om:
- Zet een omgeving op voor het ontwikkelen van toepassingen voor data-analyse.
- Begrijp hoe de grafische verwerkingsbibliotheek van Apache Flink (Gelly) werkt.
- Verpak, voer uit en bewaak op Fusen gebaseerde, fouttolerante toepassingen voor gegevensstreaming.
- Beheer diverse workloads.
- Voer geavanceerde analyses uit.
- Stel een Flink-cluster met meerdere knooppunten in.
- Meet en optimaliseer prestaties.
- Integreer Flink met verschillende Big Data systemen.
- Vergelijk de mogelijkheden van Flink met die van andere frameworks voor de verwerking van big data.
Introduction to Graph Computing
28 UrenIn deze door een instructeur geleide, live training in België, leren deelnemers over het technologieaanbod en de implementatiebenaderingen voor het verwerken van grafiekgegevens. Het doel is om objecten uit de echte wereld, hun kenmerken en relaties te identificeren, deze relaties vervolgens te modelleren en ze als gegevens te verwerken met behulp van een Graph Computing (ook bekend als Graph Analytics) benadering. We beginnen met een breed overzicht en beperken ons tot specifieke tools terwijl we een reeks casestudy's, hands-on oefeningen en live implementaties doorlopen.
Aan het einde van deze training zijn de deelnemers in staat om:
- Begrijp hoe grafiekgegevens worden bewaard en doorkruist.
- Selecteer het beste framework voor een bepaalde taak (van graph databases tot batch processing frameworks).
- Implementeer Hadoop, Spark, GraphX en Pregel om grafiekberekeningen op veel machines parallel uit te voeren.
- Bekijk real-world big data-problemen in termen van grafieken, processen en traversals.
Hortonworks Data Platform (HDP) for Administrators
21 UrenDeze live training onder leiding van een instructeur in België (online of ter plaatse) introduceert Hortonworks Data Platform (HDP) en leidt deelnemers door de implementatie van de Spark + Hadoop-oplossing.
Aan het einde van deze training zijn de deelnemers in staat om:
- Gebruik Hortonworks om op grote schaal betrouwbaar Hadoop uit te voeren.
- Integreer de beveiligings-, governance- en operationele mogelijkheden van Hadoop met de flexibele analytische workflows van Spark.
- Gebruik Hortonworks om elk van de componenten in een Spark-project te onderzoeken, te valideren, te certificeren en te ondersteunen.
- Verwerk verschillende soorten gegevens, waaronder gestructureerde, ongestructureerde, in-beweging en stilstaande gegevens.
Data Analysis with Hive/HiveQL
7 UrenDeze cursus behandelt het gebruik van Hive SQL taal (AKA: Hive HQL, SQL on Hive , Hive QL) voor mensen die gegevens uit Hive
Impala for Business Intelligence
21 UrenCloudera Impala is een open source massively parallel processing (MPP) SQL query engine voor Apache Hadoop clusters.
Impala stelt gebruikers in staat om SQL query's met lage latentie uit te voeren op gegevens die zijn opgeslagen in Hadoop Distributed File System en Apache Hbase zonder dat gegevensverplaatsing of -transformatie nodig is.
Audiëntie
Deze cursus is bedoeld voor analisten en datawetenschappers die analyses uitvoeren op gegevens die zijn opgeslagen in Hadoop via Business Intelligence of SQL tools.
Na afloop van deze cursus zijn de deelnemers in staat om
- Haal zinvolle informatie uit Hadoop clusters met Impala.
- Schrijf specifieke programma's om Business Intelligentie in Impala SQL Dialect te vergemakkelijken.
- Problemen oplossen Impala.
Confluent KSQL
7 UrenDeze live training onder leiding van een instructeur in België (online of ter plaatse) is bedoeld voor ontwikkelaars die Apache Kafka streamverwerking willen implementeren zonder code te schrijven.
Aan het einde van deze training zijn de deelnemers in staat om:
- Installeer en configureer Confluent KSQL.
- Stel een stroomverwerkingspijplijn in met alleen SQL opdrachten (geen Java of Python codering).
- Voer gegevensfiltering, transformaties, aggregaties, joins, windowing en sessionization volledig uit in SQL.
- Ontwerp en implementeer interactieve, continue query's voor streaming ETL en realtime analyses.
Apache NiFi for Administrators
21 UrenIn deze live training onder leiding van een instructeur in België (ter plaatse of op afstand) leren deelnemers hoe ze Apache NiFi kunnen implementeren en beheren in een live labomgeving.
Aan het einde van deze training zijn de deelnemers in staat om:
- Installeer en configureer Apachi NiFi.
- Bron, transformeer en beheer gegevens uit ongelijksoortige, gedistribueerde gegevensbronnen, waaronder databases en big data lakes.
- Automatiseer gegevensstromen.
- Schakel streaminganalyse in.
- Pas verschillende benaderingen toe voor gegevensopname.
- Transformeer Big Data en naar zakelijke inzichten.
Apache NiFi for Developers
7 UrenIn deze door een instructeur geleide, live training in België leren deelnemers de basisprincipes van flow-based programmeren terwijl ze een aantal demo-extensies, componenten en processors ontwikkelen met behulp van Apache NiFi.
Aan het einde van deze training zijn de deelnemers in staat om:
- Begrijp de architectuur en dataflowconcepten van NiFi.
- Ontwikkel extensies met behulp van NiFi en API's van derden.
- Op maat ontwikkelen van hun eigen Apache Nifi processor.
- Neem real-time gegevens op en verwerk ze uit ongelijksoortige en ongebruikelijke bestandsindelingen en gegevensbronnen.
Python and Spark for Big Data (PySpark)
21 UrenIn deze door een instructeur geleide, live training in België, leren deelnemers hoe ze Python en Spark samen kunnen gebruiken om big data te analyseren terwijl ze werken aan praktische oefeningen.
Aan het einde van deze training zijn de deelnemers in staat om:
- Leer hoe u Spark kunt gebruiken met Python om Big Data te analyseren.
- Werk aan oefeningen die gevallen uit de echte wereld nabootsen.
- Gebruik verschillende tools en technieken voor big data-analyse met behulp van PySpark.
Spark Streaming with Python and Kafka
7 UrenDeze live training onder leiding van een instructeur in België (online of ter plaatse) is bedoeld voor data-engineers, datawetenschappers en programmeurs die Spark Streaming functies willen gebruiken bij het verwerken en analyseren van realtime gegevens.
Aan het einde van deze training zijn deelnemers in staat om Spark Streaming te gebruiken om live datastromen te verwerken voor gebruik in databases, bestandssystemen en live dashboards.
Apache Spark MLlib
35 UrenMLlib is Spark's machine learning (ML) bibliotheek. Het doel is om praktische machine learning schaalbaar en eenvoudig te maken. Het bestaat uit algemene leeralgoritmen en hulpprogramma's, waaronder classificatie, regressie, clustering, collaboratieve filtering, vermindering van de dimensionaliteit, evenals optimalisatieprimitieven op een lager niveau en pijplijn-API's op een hoger niveau.
Het is verdeeld in twee pakketten:
spark.mllib bevat de originele API gebouwd bovenop RDD's.
spark.ml biedt een API op een hoger niveau gebouwd bovenop DataFrames voor het construeren van ML-pijpleidingen.
Publiek
Deze cursus is bedoeld voor ingenieurs en ontwikkelaars die een ingebouwde machinebibliotheek voor Apache Spark
Introduction to Data Visualization with Tidyverse and R
7 UrenDe Tidyverse is een verzameling veelzijdige R-pakketten voor het opschonen, verwerken, modelleren en visualiseren van gegevens. Sommige van de meegeleverde pakketten zijn: ggplot2, dplyr, tidyr, readr, purrr en tibble.
In deze door een instructeur geleide live training leren deelnemers hoe ze gegevens kunnen manipuleren en visualiseren met behulp van de tools in de Tidyverse .
Aan het einde van deze training kunnen deelnemers:
- Voer data-analyse uit en maak aantrekkelijke visualisaties
- Trek bruikbare conclusies uit verschillende datasets van voorbeeldgegevens
- Filter, sorteer en vat gegevens samen om verkennende vragen te beantwoorden
- Verwerk verwerkte gegevens in informatieve lijnplots, barplots, histogrammen
- Gegevens importeren en filteren uit verschillende gegevensbronnen, waaronder Excel , CSV- en SPSS-bestanden
Publiek
- Beginners in de R-taal
- Beginners tot data-analyse en datavisualisatie
Formaat van de cursus
- Deelcollege, deelbespreking, oefeningen en zware praktijkoefeningen