Návrh Školení
Část 1: Úvod do Hadoop
- hadoop historie, koncepty
- ekologický systém
- distribuce
- architektura na vysoké úrovni
- hadoopové mýty
- hadoopové výzvy
- hardware / software
- laboratoř: první pohled na Hadoop
Část 2: HDFS
- Design a architektura
- koncepty (horizontální škálování, replikace, datová lokalita, povědomí o racku)
- Démoni: Namenode, Sekundární jmenný uzel, Datový uzel
- komunikace / tlukot srdce
- integrita dat
- cestu pro čtení/zápis
- Namenode High Availability (HA), Federace
- laboratoře : Interakce s HDFS
Část 3: Map Reduce
- koncepty a architektura
- démoni (MRV1): jobtracker / tasktracker
- fáze: driver, mapper, shuffle/sort, reduktor
- Map Reduce verze 1 a verze 2 (YARN)
- Vnitřní části Map Reduce
- Úvod do programu Java Map Reduce
- labs : Spuštění ukázkového programu MapReduce
Sekce 4: Prase
- prase vs mapa java snížit
- tok prasečí práce
- prasečí latinský jazyk
- ETL s prasetem
- Transformace a spojení
- Uživatelsky definované funkce (UDF)
- laboratoře: psaní prasečích skriptů pro analýzu dat
Část 5: Hive
- architektura a design
- datové typy
- SQL podpora v Hive
- Vytváření Hive tabulek a dotazování
- oddíly
- se připojí
- zpracování textu
- laboratoře : různé laboratoře na zpracování dat pomocí Hive
Oddíl 6: HBase
- koncepty a architektura
- hbase vs RDBMS vs cassandra
- HBase Java API
- Data časových řad na HBase
- návrh schématu
- labs : Interakce s HBase pomocí shellu; programování v HBase Java API ; Cvičení návrhu schématu
Požadavky
- vyhovuje programovacímu jazyku Java (většina programovacích cvičení je v jazyce Java)
- pohodlné v Linux prostředí (umět procházet Linux příkazový řádek, upravovat soubory pomocí vi / nano)
Laboratorní prostředí
Zero Install: Není potřeba instalovat hadoop software na studentské počítače! Pro studenty bude k dispozici funkční hadoop cluster.
Studenti budou potřebovat následující
- klient SSH (Linux a Mac již mají klienty ssh, pro Windows se doporučuje Putty )
- prohlížeč pro přístup ke clusteru. Doporučujeme prohlížeč Firefox
Reference (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
Kurz - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Kurz - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Kurz - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Kurz - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay