Cursusaanbod

Inleiding tot Data Science for Big Data Analytics

    Data Science Overzicht Big Data Overzicht Datastructuren Drijfveren en complexiteiten van Big Data Big Data-ecosysteem en een nieuwe benadering van analyse Sleuteltechnologieën in Big Data Dataminingproces en -problemen Associatiepatroon Mining Dataclustering Uitbijterdetectie Dataclassificatie

Inleiding tot de levenscyclus van Data Analytics

    Ontdekking Gegevensvoorbereiding Modelplanning Modelbouw Presentatie/Communication van de resultaten Operationalisatie Oefening: Case study

Vanaf dit punt zal het grootste deel van de trainingstijd (80%) worden besteed aan voorbeelden en oefeningen in R en gerelateerde big data-technologie.

Aan de slag met R

    R- en Rstudio-functies van de R-taal installeren Objecten in R Gegevens in R Gegevensmanipulatie Big data-problemen Oefeningen

Aan de slag met Hadoop

    Installeren van Hadoop Inzicht in Hadoop modi HDFS MapReduce architectuur Hadoop gerelateerd projectenoverzicht Programma's schrijven in Hadoop MapReduce Oefeningen

R en Hadoop integreren met RHadoop

    Onderdelen van RHadoop RHadoop installeren en verbinden met Hadoop De architectuur van RHadoop Hadoop streamen met R Data-analyse problemen oplossen met RHadoop Oefeningen

Gegevens voorbewerken en voorbereiden

    Stappen voor gegevensvoorbereiding Functie-extractie Gegevens opschonen Gegevensintegratie en transformatie Gegevensreductie – bemonstering, selectie van kenmerksubsets, reductie van dimensionaliteit Discretisatie en binning Oefeningen en casestudy

Verkennende data-analysemethoden in R

    Beschrijvende statistiek Verkennende data-analyse Visualisatie – voorbereidende stappen Visualiseren van een enkele variabele Onderzoeken van meerdere variabelen Statistische methoden voor evaluatie Hypothesetesten Oefeningen en casestudy

Data Visualizations

    Basisvisualisaties in R Pakketten voor datavisualisatie ggplot2, rooster, plotly, rooster Opmaak van plots in R Geavanceerde grafieken Oefeningen

Regressie (toekomstige waarden schatten)

    Lineaire regressie Gebruiksscenario's Modelbeschrijving Diagnostiek Problemen met lineaire regressie Krimpmethoden, ridge-regressie, de lasso Generalisaties en niet-lineariteit Regressiesplines Lokale polynomiale regressie Gegeneraliseerde additieve modellen Regressie met RHadoop Oefeningen en casestudy

Classificatie

    De classificatie-gerelateerde problemen Bayesiaanse opfriscursus Naïeve Bayes Logistieke regressie K-dichtstbijzijnde buren Beslissingsbomen algoritme Neurale netwerken Ondersteuning vectormachines Diagnostiek van classificatoren Vergelijking van classificatiemethoden Scalable classificatie-algoritmen Oefeningen en casestudy

Beoordelen van de prestaties en selectie van modellen

    Bias, variantie en modelcomplexiteit Nauwkeurigheid versus interpreteerbaarheid Classificatoren evalueren Metingen van model-/algoritmeprestaties Hold-out-validatiemethode Kruisvalidatie Machine learning-algoritmen afstemmen met caret-pakket Visualisatie van modelprestaties met Profit ROC en Lift-curves

Ensemble-methoden

    Bagging Random Forests Boosting Gradiëntversterking Oefeningen en casestudy

Ondersteuning van vectormachines voor classificatie en regressie

    Classificatoren voor maximale marge Ondersteun vectorclassificatoren Ondersteun vectormachines SVM's voor classificatieproblemen SVM's voor regressieproblemen
  • Identificeren van onbekende groepen binnen een dataset
  • Functieselectie voor clustering Representatieve algoritmen: k-means, k-medoids Hiërarchische algoritmen: agglomeratieve en verdeeldheid zaaiende methoden Probabilistische basisalgoritmen: EM Op dichtheid gebaseerde algoritmen: DBSCAN, DENCLUE Clustervalidatie Geavanceerde clusterconcepten Clusteren met RHadoop Oefeningen en casestudy

      Verbindingen ontdekken met Linkanalyse

    Concepten voor linkanalyse Metrieken voor het analyseren van netwerken Het Pagerank-algoritme Hyperlink-geïnduceerd onderwerp Search Linkvoorspellingsoefeningen en casestudy

      Associatiepatroonmijnbouw

    Frequent Pattern Mining Model Scalabaarheidsproblemen bij frequente patroonmining Brute Force-algoritmen Apriori-algoritme De FP-groeibenadering Evaluatie van kandidaatregels Toepassingen van associatieregels Validatie en testen Diagnostiek Associatieregels met R en Hadoop Oefeningen en casestudy

      Aanbevelingsmotoren bouwen

    Aanbevelingssystemen begrijpen Dataminingtechnieken die worden gebruikt in aanbevelingssystemen Aanbevelingssystemen met het aanbevelingslabpakket De aanbevelingssystemen evalueren Aanbevelingen met RHadoop Oefening: aanbevelingsengine bouwen

      Tekstanalyse

    Stappen voor tekstanalyse Ruwe tekst verzamelen Zak met woorden Termfrequentie – omgekeerde documentfrequentie Sentimenten bepalen Oefeningen en casestudy

     35 Uren

    Aantal deelnemers


    Prijs Per Deelnemer

    Testimonials (2)

    Voorlopige Aankomende Cursussen

    Gerelateerde categorieën