Bedankt voor uw aanvraag! Een van onze medewerkers neemt binnenkort contact met u op
Bedankt voor uw boeking! Een van onze medewerkers neemt binnenkort contact met u op.
Cursusaanbod
Inleiding tot Data Science for Big Data Analytics
- Data Science Overzicht Big Data Overzicht Datastructuren Drijfveren en complexiteiten van Big Data Big Data-ecosysteem en een nieuwe benadering van analyse Sleuteltechnologieën in Big Data Dataminingproces en -problemen Associatiepatroon Mining Dataclustering Uitbijterdetectie Dataclassificatie
Inleiding tot de levenscyclus van Data Analytics
- Ontdekking Gegevensvoorbereiding Modelplanning Modelbouw Presentatie/Communication van de resultaten Operationalisatie Oefening: Case study
Vanaf dit punt zal het grootste deel van de trainingstijd (80%) worden besteed aan voorbeelden en oefeningen in R en gerelateerde big data-technologie.
Aan de slag met R
- R- en Rstudio-functies van de R-taal installeren Objecten in R Gegevens in R Gegevensmanipulatie Big data-problemen Oefeningen
Aan de slag met Hadoop
- Installeren van Hadoop Inzicht in Hadoop modi HDFS MapReduce architectuur Hadoop gerelateerd projectenoverzicht Programma's schrijven in Hadoop MapReduce Oefeningen
R en Hadoop integreren met RHadoop
- Onderdelen van RHadoop RHadoop installeren en verbinden met Hadoop De architectuur van RHadoop Hadoop streamen met R Data-analyse problemen oplossen met RHadoop Oefeningen
Gegevens voorbewerken en voorbereiden
- Stappen voor gegevensvoorbereiding Functie-extractie Gegevens opschonen Gegevensintegratie en transformatie Gegevensreductie – bemonstering, selectie van kenmerksubsets, reductie van dimensionaliteit Discretisatie en binning Oefeningen en casestudy
Verkennende data-analysemethoden in R
- Beschrijvende statistiek Verkennende data-analyse Visualisatie – voorbereidende stappen Visualiseren van een enkele variabele Onderzoeken van meerdere variabelen Statistische methoden voor evaluatie Hypothesetesten Oefeningen en casestudy
Data Visualizations
- Basisvisualisaties in R Pakketten voor datavisualisatie ggplot2, rooster, plotly, rooster Opmaak van plots in R Geavanceerde grafieken Oefeningen
Regressie (toekomstige waarden schatten)
- Lineaire regressie Gebruiksscenario's Modelbeschrijving Diagnostiek Problemen met lineaire regressie Krimpmethoden, ridge-regressie, de lasso Generalisaties en niet-lineariteit Regressiesplines Lokale polynomiale regressie Gegeneraliseerde additieve modellen Regressie met RHadoop Oefeningen en casestudy
Classificatie
- De classificatie-gerelateerde problemen Bayesiaanse opfriscursus Naïeve Bayes Logistieke regressie K-dichtstbijzijnde buren Beslissingsbomen algoritme Neurale netwerken Ondersteuning vectormachines Diagnostiek van classificatoren Vergelijking van classificatiemethoden Scalable classificatie-algoritmen Oefeningen en casestudy
Beoordelen van de prestaties en selectie van modellen
- Bias, variantie en modelcomplexiteit Nauwkeurigheid versus interpreteerbaarheid Classificatoren evalueren Metingen van model-/algoritmeprestaties Hold-out-validatiemethode Kruisvalidatie Machine learning-algoritmen afstemmen met caret-pakket Visualisatie van modelprestaties met Profit ROC en Lift-curves
Ensemble-methoden
- Bagging Random Forests Boosting Gradiëntversterking Oefeningen en casestudy
Ondersteuning van vectormachines voor classificatie en regressie
- Classificatoren voor maximale marge Ondersteun vectorclassificatoren Ondersteun vectormachines SVM's voor classificatieproblemen SVM's voor regressieproblemen
Functieselectie voor clustering Representatieve algoritmen: k-means, k-medoids Hiërarchische algoritmen: agglomeratieve en verdeeldheid zaaiende methoden Probabilistische basisalgoritmen: EM Op dichtheid gebaseerde algoritmen: DBSCAN, DENCLUE Clustervalidatie Geavanceerde clusterconcepten Clusteren met RHadoop Oefeningen en casestudy
- Verbindingen ontdekken met Linkanalyse
Concepten voor linkanalyse Metrieken voor het analyseren van netwerken Het Pagerank-algoritme Hyperlink-geïnduceerd onderwerp Search Linkvoorspellingsoefeningen en casestudy
- Associatiepatroonmijnbouw
Frequent Pattern Mining Model Scalabaarheidsproblemen bij frequente patroonmining Brute Force-algoritmen Apriori-algoritme De FP-groeibenadering Evaluatie van kandidaatregels Toepassingen van associatieregels Validatie en testen Diagnostiek Associatieregels met R en Hadoop Oefeningen en casestudy
- Aanbevelingsmotoren bouwen
Aanbevelingssystemen begrijpen Dataminingtechnieken die worden gebruikt in aanbevelingssystemen Aanbevelingssystemen met het aanbevelingslabpakket De aanbevelingssystemen evalueren Aanbevelingen met RHadoop Oefening: aanbevelingsengine bouwen
- Tekstanalyse
Stappen voor tekstanalyse Ruwe tekst verzamelen Zak met woorden Termfrequentie – omgekeerde documentfrequentie Sentimenten bepalen Oefeningen en casestudy
35 Uren
Testimonials (2)
Intensity, Training materials and expertise, Clarity, Excellent communication with Alessandra
Marija Hornis Dmitrovic - Marija Hornis
Cursus - Data Science for Big Data Analytics
The example and training material were sufficient and made it easy to understand what you are doing.