Návrh Školení

  • Zavedení
    • Hadoop historie, pojmy
    • Ekosystém
    • Distribuce
    • Architektura na vysoké úrovni
    • Hadoop mýty
    • Hadoop výzvy (hardware / software)
    • Laboratoře: diskutujte o svých Big Data projektech a problémech
  • Plánování a instalace
    • Výběr softwaru, Hadoop distribuce
    • Dimenzování klastru, plánování růstu
    • Výběr hardwaru a sítě
    • Topologie racku
    • Instalace
    • Vícenásobný nájem
    • Struktura adresářů, logy
    • Benchmarking
    • Laboratoře: instalace clusteru, spouštění výkonnostních testů
  • Operace HDFS
    • Koncepty (horizontální škálování, replikace, datová lokalita, povědomí o racku)
    • Uzly a démoni (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Monitorování zdraví
    • Správa přes příkazový řádek a prohlížeč
    • Přidání úložiště, výměna vadných disků
    • Laboratoře: seznámení s příkazovými řádky HDFS
  • Příjem dat
    • Flume pro přijímání protokolů a dalších dat do HDFS
    • Sqoop pro import z SQL databází do HDFS, stejně jako export zpět do SQL
    • Hadoop datové sklady s Hive
    • Kopírování dat mezi clustery (distcp)
    • Použití S3 jako doplněk k HDFS
    • Osvědčené postupy a architektury zpracování dat
    • Laboratoře: nastavení a používání Flume, stejné pro Sqoop
  • Provoz a administrace MapReduce
    • Paralelní výpočty před mapreduce: porovnejte správu HPC vs Hadoop
    • MapReduce zatížení clusteru
    • Uzly a démoni (JobTracker, TaskTracker)
    • Projděte si uživatelské rozhraní MapReduce
    • Konfigurace Mapreduce
    • Konfigurace úlohy
    • Optimalizace MapReduce
    • Fool-proofing MR: co říct svým programátorům
    • Laboratoře: spouštění příkladů MapReduce
  • PŘÍZE: nová architektura a nové možnosti
    • Cíle návrhu YARN a architektura implementace
    • Noví aktéři: ResourceManager, NodeManager, Application Master
    • Instalace PŘÍZE
    • Plánování práce v rámci YARN
    • Laboratoře: prozkoumejte plánování úloh
  • Pokročilá témata
    • Hardware monitoring
    • Monitorování klastrů
    • Přidávání a odebírání serverů, upgrade Hadoop
    • Plánování zálohování, obnovy a kontinuity podnikání
    • Oozie pracovní postupy
    • Hadoop vysoká dostupnost (HA)
    • Hadoop Federace
    • Zabezpečení clusteru pomocí Kerberos
    • Laboratoře: nastavení monitorování
  • Volitelné stopy
    • Cloudera Manager pro správu, monitorování a rutinní úlohy clusteru; instalace, použití. V této stopě jsou všechna cvičení a laboratoře prováděna v distribučním prostředí Cloudera (CDH5)
    • Ambari pro správu clusteru, monitorování a rutinní úkoly; instalace, použití. V této stopě se všechna cvičení a laboratoře provádějí v rámci správce clusteru Ambari a datové platformy Hortonworks (HDP 2.0)

Požadavky

  • pohodlné se základní Linux správou systému
  • základní skriptovací dovednosti

Znalost Hadoop a Distributed Computing není vyžadována, ale bude představena a vysvětlena v kurzu.

Laboratorní prostředí

Zero Install: Není potřeba instalovat hadoop software na studentské počítače! Pro studenty bude k dispozici funkční hadoop cluster.

Studenti budou potřebovat následující

  • klient SSH (Linux a Mac již mají klienty ssh, pro Windows se doporučuje Putty)
  • prohlížeč pro přístup ke clusteru. Doporučujeme prohlížeč Firefox s nainstalovaným rozšířením FoxyProxy
 21 hodiny

Počet účastníků


Price per participant

Reference (5)

Upcoming Courses

Související kategorie