Cursusaanbod

  • Introductie
    • Hadoop Geschiedenis, Concepten
    • Ecosysteem
    • Distributies
    • Architectuur op hoog niveau
    • Hadoop MYTHEN
    • Hadoop Uitdagingen (hardware / software)
    • Labs: bespreek je Big Data projecten en problemen
  • Planning en installatie
    • Selecteren van software, Hadoop distributies
    • Dimensionering van het cluster, plannen voor groei
    • Hardware en netwerk selecteren
    • Topologie van het rek
    • Installatie
    • Multi-huurovereenkomst
    • Mappenstructuur, logboeken
    • Benchmarking
    • Labs: cluster installeren, prestatiebenchmarks uitvoeren
  • HDFS-bewerkingen
    • Concepten (horizontaal schalen, replicatie, datalokalisatie, rackbewustzijn)
    • Knooppunten en daemons (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Gezondheid monitoring
    • Commandline- en browsergebaseerd beheer
    • Opslagruimte toevoegen, defecte schijven vervangen
    • Labs: vertrouwd raken met HDFS-opdrachtregels
  • Opname van gegevens
    • Goot voor logboeken en andere gegevensopname in HDFS
    • Sqoop voor het importeren van SQL databases naar HDFS, evenals het exporteren terug naar SQL
    • Hadoop datawarehousing met Hive
    • Gegevens kopiëren tussen clusters (distcp)
    • S3 gebruiken als aanvulling op HDFS
    • Best practices en architecturen voor gegevensopname
    • Labs: Flume instellen en gebruiken, hetzelfde voor Sqoop
  • MapVerminder bewerkingen en administratie
    • Parallel computing vóór mapreduce: vergelijk HPC versus Hadoop toediening
    • MapVerminder de clusterbelasting
    • Knooppunten en daemons (JobTracker, TaskTracker)
    • MapVerminder UI-wandeling
    • Mapreduce-configuratie
    • Taak configureren
    • MapReduce optimaliseren
    • Fool-proofing MR: wat u uw programmeurs moet vertellen
    • Labs: voorbeelden van MapReduce uitvoeren
  • YARN: nieuwe architectuur en nieuwe mogelijkheden
    • YARN ontwerpdoelen en implementatiearchitectuur
    • Nieuwe actoren: ResourceManager, NodeManager, Application Master
    • YARN installeren
    • Taakplanning onder YARN
    • Labs: onderzoek taakplanning
  • Geavanceerde onderwerpen
    • Hardware monitoring
    • Bewaking van clusters
    • Servers toevoegen en verwijderen, upgraden Hadoop
    • Back-up, herstel en bedrijfscontinuïteitsplanning
    • Oozie-taakworkflows
    • Hadoop hoge beschikbaarheid (HA)
    • Hadoop Federatie
    • Uw cluster beveiligen met Kerberos
    • Labs: monitoring instellen
  • Optionele tracks
    • Cloudera Manager voor clusterbeheer, monitoring en routinetaken; installatie, gebruik. In deze track worden alle oefeningen en labs uitgevoerd binnen de Cloudera distributieomgeving (CDH5)
    • Ambari voor clusterbeheer, monitoring en routinetaken; installatie, gebruik. In dit traject worden alle oefeningen en labo's uitgevoerd binnen de Ambari clustermanager en Hortonworks Data Platform (HDP 2.0)

Vereisten

  • Comfortabel met basis Linux systeembeheer
  • Basisvaardigheden op het gebied van scripting

Kennis van Hadoop en Distributed Computing is niet vereist, maar wordt in de cursus geïntroduceerd en toegelicht.

Lab-omgeving

Zero Install : Het is niet nodig om Hadoop-software op de machines van studenten te installeren! Voor de studenten wordt een werkende hadoop-cluster voorzien.

Studenten hebben het volgende nodig

  • een SSH-client (Linux en Mac hebben al ssh-clients, voor Windows wordt Putty aanbevolen)
  • een browser om toegang te krijgen tot het cluster. We raden de Firefox-browser aan waarop de FoxyProxy-extensie is geïnstalleerd
 21 Uren

Aantal deelnemers


Prijs Per Deelnemer

Testimonials (5)

Voorlopige Aankomende Cursussen

Gerelateerde categorieën