Návrh Školení
- Zavedení
- Hadoop historie, pojmy
- Ekosystém
- Distribuce
- Architektura na vysoké úrovni
- Hadoop mýty
- Hadoop výzvy (hardware / software)
- Laboratoře: diskutujte o svých Big Data projektech a problémech
- Plánování a instalace
- Výběr softwaru, Hadoop distribuce
- Dimenzování klastru, plánování růstu
- Výběr hardwaru a sítě
- Topologie racku
- Instalace
- Vícenásobný nájem
- Struktura adresářů, logy
- Benchmarking
- Laboratoře: instalace clusteru, spouštění výkonnostních testů
- Operace HDFS
- Koncepty (horizontální škálování, replikace, datová lokalita, povědomí o racku)
- Uzly a démoni (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Monitorování zdraví
- Správa přes příkazový řádek a prohlížeč
- Přidání úložiště, výměna vadných disků
- Laboratoře: seznámení s příkazovými řádky HDFS
- Příjem dat
- Flume pro přijímání protokolů a dalších dat do HDFS
- Sqoop pro import z SQL databází do HDFS, stejně jako export zpět do SQL
- Hadoop datové sklady s Hive
- Kopírování dat mezi clustery (distcp)
- Použití S3 jako doplněk k HDFS
- Osvědčené postupy a architektury zpracování dat
- Laboratoře: nastavení a používání Flume, stejné pro Sqoop
- Provoz a administrace MapReduce
- Paralelní výpočty před mapreduce: porovnejte správu HPC vs Hadoop
- MapReduce zatížení clusteru
- Uzly a démoni (JobTracker, TaskTracker)
- Projděte si uživatelské rozhraní MapReduce
- Konfigurace Mapreduce
- Konfigurace úlohy
- Optimalizace MapReduce
- Fool-proofing MR: co říct svým programátorům
- Laboratoře: spouštění příkladů MapReduce
- PŘÍZE: nová architektura a nové možnosti
- Cíle návrhu YARN a architektura implementace
- Noví aktéři: ResourceManager, NodeManager, Application Master
- Instalace PŘÍZE
- Plánování práce v rámci YARN
- Laboratoře: prozkoumejte plánování úloh
- Pokročilá témata
- Hardware monitoring
- Monitorování klastrů
- Přidávání a odebírání serverů, upgrade Hadoop
- Plánování zálohování, obnovy a kontinuity podnikání
- Oozie pracovní postupy
- Hadoop vysoká dostupnost (HA)
- Hadoop Federace
- Zabezpečení clusteru pomocí Kerberos
- Laboratoře: nastavení monitorování
- Volitelné stopy
- Cloudera Manager pro správu, monitorování a rutinní úlohy clusteru; instalace, použití. V této stopě jsou všechna cvičení a laboratoře prováděna v distribučním prostředí Cloudera (CDH5)
- Ambari pro správu clusteru, monitorování a rutinní úkoly; instalace, použití. V této stopě se všechna cvičení a laboratoře provádějí v rámci správce clusteru Ambari a datové platformy Hortonworks (HDP 2.0)
Požadavky
- pohodlné se základní Linux správou systému
- základní skriptovací dovednosti
Znalost Hadoop a Distributed Computing není vyžadována, ale bude představena a vysvětlena v kurzu.
Laboratorní prostředí
Zero Install: Není potřeba instalovat hadoop software na studentské počítače! Pro studenty bude k dispozici funkční hadoop cluster.
Studenti budou potřebovat následující
- klient SSH (Linux a Mac již mají klienty ssh, pro Windows se doporučuje Putty)
- prohlížeč pro přístup ke clusteru. Doporučujeme prohlížeč Firefox s nainstalovaným rozšířením FoxyProxy
Reference (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
Kurz - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Kurz - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Kurz - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Kurz - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay