Plan du cours
Introduction
- Introduction au Cloud Computing et aux solutions Big Data
- Vue d'ensemble des fonctionnalités et de l'architecture d'Apache Hadoop
Mise en place Hadoop
- Planification d'un cluster Hadoop (sur site, dans le nuage, etc.)
- Sélection du système d'exploitation et de la distribution Hadoop
- Provisionnement des ressources (matériel, réseau, etc.)
- Téléchargement et installation du logiciel
- Dimensionner le cluster pour plus de flexibilité
Travailler avec HDFS
- Comprendre le Hadoop système de fichiers distribués (HDFS)
- Vue d'ensemble de la référence des commandes HDFS
- Accéder à HDFS
- Effectuer des opérations de base sur les fichiers dans HDFS
- Utiliser S3 en complément de HDFS
Vue d'ensemble de MapReduce
- Comprendre le flux de données dans le cadre MapReduce
- Cartographier, mélanger, trier et réduire
- Démonstration : Calcul des salaires les plus élevés
Travailler avec YARN
- Comprendre la gestion des ressources dans Hadoop
- Travailler avec ResourceManager, NodeManager, Application Master
- Planification des tâches sous YARN
- Ordonnancement pour un grand nombre de nœuds et de clusters
- Démonstration : Planification des tâches
Intégrer Hadoop à Spark
- Configurer le stockage pour Spark (HDFS, Amazon, S3, NoSQL, etc.)
- Comprendre les ensembles de données distribuées résilientes (RDD)
- Créer un RDD
- Implémentation des transformations RDD
- Démonstration : Implémentation d'un programme de recherche textuelle de titres de films
Gestion d'un Hadoop cluster
- Surveillance Hadoop
- Sécurisation d'un cluster Hadoop
- Ajouter et supprimer des nœuds
- Exécution d'un test de performance
- Optimisation des performances d'un cluster Hadoop
- Sauvegarde, récupération et planification de la continuité des activités
- Assurer la haute disponibilité (HA)
Mise à niveau et migration d'un Hadoop cluster
- Évaluer les besoins en charge de travail
- Mise à niveau Hadoop
- Passer d'un système sur site à un système en nuage et vice-versa
- Récupération des défaillances
Dépannage
Résumé et conclusion
Pré requis
- Expérience de l'administration de systèmes
- Expérience de la ligne de commande Linux
- Compréhension des concepts de big data
Audience
- Administrateurs système
- DBA
Nos clients témoignent (5)
Beaucoup d'exemples pratiques, différentes façons d'aborder le même problème, et parfois des astuces pas si évidentes pour améliorer la solution actuelle.
Rafal - Nordea
Formation - Apache Spark MLlib
Traduction automatique
very interactive...
Richard Langford
Formation - SMACK Stack for Data Science
Sufficient hands on, trainer is knowledgable
Chris Tan
Formation - A Practical Introduction to Stream Processing
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Formation - Impala for Business Intelligence
Get to learn spark streaming , databricks and aws redshift