Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
spark.mllib : types de données, algorithmes et utilitaires
- Types de données
- Statistiques de base
- statistiques sommaires
- corrélations
- échantillonnage stratifié
- tests d'hypothèse
- tests de signification en continu
- génération de données aléatoires
- Classification et régression
- modèles linéaires (SVM, régression logistique, régression linéaire)
- Bayes naïfs
- arbres de décision
- ensembles d'arbres (Random Forests et arbres boostés par gradient)
- régression isotonique
- le filtrage collaboratif
- les moindres carrés alternés (ALS)
- Regroupement
- k-means
- mélange gaussien
- clustering par itération de puissance (PIC)
- allocation de Dirichlet latente (LDA)
- bisecting k-means
- k-means en continu
- Réduction de la dimensionnalité
- décomposition en valeurs singulières (SVD)
- analyse en composantes principales (ACP)
- Extraction et transformation de caractéristiques
- Extraction de motifs fréquents
- croissance FP
- règles d'association
- PrefixSpan
- Mesures d'évaluation
- Exportation du modèle PMML
- Optimisation (développeur)
- descente de gradient stochastique
- BFGS à mémoire limitée (L-BFGS)
spark.ml : API de haut niveau pour les pipelines de ML
- Vue d'ensemble : estimateurs, transformateurs et pipelines
- Extraction, transformation et sélection des caractéristiques
- Classification et régression
- Regroupement
- Sujets avancés
Pré requis
Connaissance de l'un des domaines suivants
- Java
- Scala
- Python
- SparkR
35 Heures
Nos clients témoignent (1)
Beaucoup d'exemples pratiques, différentes façons d'aborder le même problème, et parfois des astuces pas si évidentes pour améliorer la solution actuelle.
Rafal - Nordea
Formation - Apache Spark MLlib
Traduction automatique