Plan du cours

Introduction à Data Analysis et Big Data

  • Qu'est-ce qui fait que Big Data est "grand" ?
    • Vélocité, volume, variété, véracité (VVVV)
  • Limites du traitement traditionnel des données
  • Traitement distribué
  • Analyse statistique
  • Types d'analyse Machine Learning
  • Data Visualization

[Rôles et responsabilités

  • Administrateurs
  • Développeurs
  • Analystes de données

Languages Utilisé pour Data Analysis

  • R Language
    • Pourquoi R pour Data Analysis ?
    • Manipulation de données, calcul et affichage graphique
  • Python
    • Pourquoi Python pour Data Analysis ?
    • Manipulation, traitement, nettoyage et analyse de données

Approches de Data Analysis

  • Analyse statistique
    • Analyse des séries temporelles
    • Forecasting avec les modèles de corrélation et de régression
    • Inférentielle Statistics (estimation)
    • Descriptive Statistics dans des ensembles Big Data (par exemple, calcul de la moyenne)
  • Machine Learning
    • Apprentissage supervisé ou non supervisé
    • Classification et regroupement
    • Estimation du coût de méthodes spécifiques
    • Filtrage
  • Traitement du langage naturel
    • Traitement du texte
    • Sous-entendre le sens du texte
    • Génération automatique de texte
    • Analyse des sentiments / analyse des sujets
  • Computer Vision
    • Acquisition, traitement, analyse et compréhension des images
    • Reconstruction, interprétation et compréhension de scènes en 3D
    • Utilisation de données d'images pour prendre des décisions

Big Data Infrastructure

  • Stockage des données
    • Bases de données relationnelles (SQL)
      • MySQL
      • Postgres
      • Oracle
    • Bases de données non relationnelles (NoSQL)
      • Cassandra
      • MongoDB
      • Neo4js
    • Comprendre les nuances
      • Bases de données hiérarchiques
      • Bases de données orientées objet
      • Bases de données orientées documents
      • Bases de données orientées graphe
      • Autres bases de données
  • Traitement distribué
    • Hadoop
      • HDFS en tant que système de fichiers distribué
      • MapReduce pour le traitement distribué
    • Spark
      • Cadre de calcul en cluster tout-en-un en mémoire pour le traitement de données à grande échelle
      • Streaming structuré
      • Spark SQL
      • Machine Learning bibliothèques : MLlib
      • Traitement des graphes avec GraphX
  • Scalabilité
    • Nuage public
      • AWS, Google, Aliyun, etc.
    • Nuage privé
      • OpenStack, Cloud Foundry, etc.
    • Évolutivité automatique

Choisir la bonne solution pour le problème

L'avenir de Big Data

Résumé et prochaines étapes

Pré requis

  • Compréhension générale des mathématiques
  • Compréhension générale de la programmation
  • Compréhension générale des bases de données

Audience

  • Développeurs / programmeurs
  • Consultants en informatique
 35 Heures

Nombre de participants


Prix ​​par Participant

Nos clients témoignent (7)

Cours à venir

Catégories Similaires