Plan du cours

spark.mllib : types de données, algorithmes et utilitaires

  • Types de données
  • Statistiques de base
    • statistiques sommaires
    • corrélations
    • échantillonnage stratifié
    • tests d'hypothèse
    • tests de signification en continu
    • génération de données aléatoires
  • Classification et régression
    • modèles linéaires (SVM, régression logistique, régression linéaire)
    • Bayes naïfs
    • arbres de décision
    • ensembles d'arbres (Random Forests et arbres boostés par gradient)
    • régression isotonique
  • le filtrage collaboratif
    • les moindres carrés alternés (ALS)
  • Regroupement
    • k-means
    • mélange gaussien
    • clustering par itération de puissance (PIC)
    • allocation de Dirichlet latente (LDA)
    • bisecting k-means
    • k-means en continu
  • Réduction de la dimensionnalité
    • décomposition en valeurs singulières (SVD)
    • analyse en composantes principales (ACP)
  • Extraction et transformation de caractéristiques
  • Extraction de motifs fréquents
    • croissance FP
    • règles d'association
    • PrefixSpan
  • Mesures d'évaluation
  • Exportation du modèle PMML
  • Optimisation (développeur)
    • descente de gradient stochastique
    • BFGS à mémoire limitée (L-BFGS)

spark.ml : API de haut niveau pour les pipelines de ML

  • Vue d'ensemble : estimateurs, transformateurs et pipelines
  • Extraction, transformation et sélection des caractéristiques
  • Classification et régression
  • Regroupement
  • Sujets avancés

Pré requis

Connaissance de l'un des domaines suivants

  • Java
  • Scala
  • Python
  • SparkR
 35 Heures

Nombre de participants


Prix ​​par Participant

Nos clients témoignent (1)

Cours à venir

Catégories Similaires