Návrh Školení
Úvod
- Úvod do cloud computingu a řešení Big Data Přehled Apache Hadoop Funkce a architektura
Nastavení Hadoop
- Plánování Hadoop clusteru (on-premise, cloud, atd.) Výběr OS a Hadoop distribuce Poskytování zdrojů (hardware, síť atd.) Stažení a instalace softwaru Nastavení velikosti clusteru pro flexibilitu
Práce s HDFS
- Porozumění Hadoop Distributed File System (HDFS) Přehled příkazů HDFS Přístup k HDFS Provádění základních operací se soubory na HDFS Použití S3 jako doplňku HDFS
Přehled MapReduce
- Pochopení toku dat v rámci MapReduce Ukázka mapy, náhodného řazení, třídění a snižování: Počítání nejlepších platů
Práce s YARN
- Pochopení správy zdrojů v Hadoop Práce s ResourceManager, NodeManager, Application Master Scheduling úloh pod YARN Scheduling pro velký počet uzlů a clusterů Ukázka: Plánování úloh
Integrace Hadoop se Sparkem
- Nastavení úložiště pro Spark (HDFS, Amazon, S3, NoSQL atd.) Pochopení odolných distribuovaných datových sad (RDD) Vytvoření RDD Implementace RDD Transformations Demo: Implementace programu pro vyhledávání textu pro filmové tituly
Správa Hadoop Clusteru
- Monitorování Hadoop Zabezpečení clusteru Hadoop Přidávání a odebírání uzlů Spuštění srovnávacího testu výkonu Vyladění clusteru Hadoop pro optimalizaci výkonu Plánování zálohování, obnovy a kontinuity provozu Zajištění vysoké dostupnosti (HA)
Upgrade a migrace Hadoop clusteru
- Posouzení požadavků na pracovní zátěž Upgrade Hadoop Přechod z on-premise do cloudu a naopak Obnova po selhání
Odstraňování problémů
Shrnutí a závěr
Požadavky
- Zkušenosti se správou systému
- Zkušenosti s příkazovým řádkem Linux
- Pochopení konceptů velkých dat
Publikum
- Správci systému
- DBA
Reference (5)
Spousta praktických příkladů, různé způsoby, jak přistupovat ke stejnému problému, a někdy ne tak samozřejmé triky, jak stávající řešení vylepšit
Rafal - Nordea
Kurz - Apache Spark MLlib
Machine Translated
very interactive...
Richard Langford
Kurz - SMACK Stack for Data Science
Sufficient hands on, trainer is knowledgable
Chris Tan
Kurz - A Practical Introduction to Stream Processing
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Kurz - Impala for Business Intelligence
Get to learn spark streaming , databricks and aws redshift