Návrh Školení

1: HDFS (17 %)

  • Popište funkci démonů HDFS
  • Popište běžný provoz clusteru Apache Hadoop, jak při ukládání dat, tak při zpracování dat.
  • Identifikujte současné vlastnosti výpočetních systémů, které motivují systém jako Apache Hadoop.
  • Klasifikujte hlavní cíle HDFS Design
  • Na základě scénáře identifikujte vhodný případ použití pro federaci HDFS
  • Identifikujte součásti a démona clusteru HDFS HA-Quorum
  • Analyzujte roli zabezpečení HDFS (Kerberos)
  • Určete nejlepší volbu serializace dat pro daný scénář
  • Popište cesty pro čtení a zápis souborů
  • Identifikujte příkazy pro manipulaci se soubory v prostředí souborového systému Hadoop

2: YARN a MapReduce verze 2 (MRv2) (17 %)

  • Pochopte, jak upgrade clusteru z Hadoop 1 na Hadoop 2 ovlivní nastavení clusteru
  • Pochopte, jak nasadit MapReduce v2 (MRv2 / YARN), včetně všech démonů YARN
  • Pochopte základní strategii návrhu pro MapReduce v2 (MRv2)
  • Určete, jak YARN zpracovává alokace zdrojů
  • Identifikujte pracovní postup úlohy MapReduce běžící na YARN
  • Určete, které soubory musíte změnit a jak chcete migrovat cluster z MapReduce verze 1 (MRv1) na MapReduce verze 2 (MRv2) běžící na YARN.

3: Hadoop Plánování klastrů (16 %)

  • Hlavní body, které je třeba vzít v úvahu při výběru hardwaru a operačních systémů pro hostování clusteru Apache Hadoop.
  • Analyzujte možnosti při výběru OS
  • Pochopte ladění jádra a výměnu disku
  • Na základě scénáře a vzoru zátěže určete konfiguraci hardwaru vhodnou pro daný scénář
  • Na základě scénáře určete, jaké komponenty ekosystému musí váš cluster provozovat, aby splnil smlouvu SLA
  • Velikost clusteru: na základě scénáře a frekvence provádění identifikujte specifika pro pracovní zátěž, včetně CPU, paměti, úložiště, diskových I/O
  • Velikost a konfigurace disku, včetně požadavků JBOD versus RAID, SAN, virtualizace a velikosti disku v clusteru
  • Síťové topologie: pochopte využití sítě v Hadoop (pro HDFS i MapReduce) a navrhněte nebo identifikujte klíčové komponenty návrhu sítě pro daný scénář

4: Hadoop Instalace a správa clusteru (25 %)

  • Na základě scénáře zjistěte, jak bude cluster zpracovávat selhání disku a počítače
  • Analyzujte konfiguraci protokolování a formát konfiguračního souboru protokolování
  • Pochopte základy Hadoop metrik a monitorování stavu clusteru
  • Identifikujte funkci a účel dostupných nástrojů pro monitorování clusteru
  • Být schopen nainstalovat všechny komponenty ekosystému v CDH 5, včetně (mimo jiné): Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive a Pig
  • Identifikujte funkci a účel dostupných nástrojů pro správu souborového systému Apache Hadoop

5: Zdroj Management (10 %)

  • Pochopte celkové cíle návrhu každého z Hadoop plánovačů
  • Na základě scénáře určete, jak plánovač FIFO přiděluje prostředky clusteru
  • Na základě scénáře určete, jak Fair Scheduler přiděluje klastrové prostředky pod YARN
  • V daném scénáři určete, jak plánovač kapacity přiděluje prostředky clusteru

6: Monitorování a protokolování (15 %)

  • Pochopte funkce a vlastnosti schopností Hadoop shromažďovat metriky
  • Analyzujte webové uživatelské rozhraní NameNode a JobTracker
  • Pochopte, jak monitorovat clusterové démony
  • Identifikujte a monitorujte využití CPU na hlavních uzlech
  • Popište, jak monitorovat swap a alokaci paměti na všech uzlech
  • Zjistěte, jak zobrazit a spravovat soubory protokolu Hadoop
  • Interpretujte soubor protokolu

Požadavky

  • Základní Linux administrativní dovednosti
  • Základní znalosti programování
 35 hodiny

Počet účastníků


Price per participant

Reference (3)

Upcoming Courses

Související kategorie