Návrh Školení

Část 1: Data Management v HDFS

  • Různé datové formáty (JSON / Avro / Parkety)
  • Kompresní schémata
  • Maskování dat
  • Laboratoře : Analýza různých formátů dat; umožňující kompresi

Sekce 2: Pokročilé prase

  • Uživatelsky definované funkce
  • Úvod do prasečích knihoven (ElephantBird / Data-Fu)
  • Načítání komplexních strukturovaných dat pomocí Pig
  • Prasečí ladění
  • Laboratoře: pokročilé prase skriptování, parsování komplexních datových typů

Část 3: Pokročilé Hive

  • Uživatelsky definované funkce
  • Komprimované tabulky
  • Hive Ladění výkonu
  • Laboratoře: vytváření komprimovaných tabulek, vyhodnocování formátů tabulek a konfigurace

Část 4: Pokročilá HBase

  • Pokročilé modelování schémat
  • Komprese
  • Hromadné zpracování dat
  • Srovnání širokého a vysokého stolu
  • HBase a Pig
  • HBase a Hive
  • Ladění výkonu HBase
  • Laboratoře: ladění HBase; přístup k datům HBase z Pig & Hive; Použití Phoenixu pro datové modelování

Požadavky

  • pohodlné s Java programovacím jazykem (většina programovacích cvičení je v jazyce Java)
  • pohodlné v Linux prostředí (umět procházet Linux příkazový řádek, upravovat soubory pomocí vi / nano)
  • pracovní znalost Hadoop.

Laboratorní prostředí

Zero Install: Není potřeba instalovat hadoop software na studentské počítače! Pro studenty bude k dispozici funkční hadoop cluster.

Studenti budou potřebovat následující

  • klient SSH (Linux a Mac již mají klienty ssh, pro Windows se doporučuje Putty )
  • prohlížeč pro přístup ke clusteru. Doporučujeme prohlížeč Firefox
 21 hodiny

Počet účastníků


Price per participant

Reference (5)

Upcoming Courses

Související kategorie