Děkujeme za vaši dotaz! Jeden z našich pracovníků vás brzy kontaktuje.
Děkujeme za rezervaci! Jeden z našich pracovníků vás brzy kontaktuje.
Návrh Školení
Úvod:
- Apache Spark v Hadoop ekosystému
- Krátký úvod do Pythonu a Scala
Základy (teorie):
- Architektura
- RDD
- Transformace a akce
- Fáze, úkoly, závislosti
Zvládnutí základů v prostředí Databricks (praktický workshop):
- Cvičení s RDD API
- Základní funkce akcí a transformací
- PairRDD
- Spojení (join)
- Kachování (caching) strategie
- Cvičení s DataFrame API
- SparkSQL
- DataFrame: select, filter, group, sort
- UDF (Uživatelsky definovaná funkce)
- Pohled na DataSet API
- Streamování
Zvládnutí nasazení v prostředí AWS (praktický workshop):
- Základy AWS Glue
- Rozdíly mezi AWS EMR a AWS Glue
- Příkladové úlohy v obou prostředích
- Výhody a nevýhody
Dodatečně:
- Úvod do orchestrace Apache Airflow
Požadavky
Schopnosti programování (nejlépe python, scala)
SQL základy
21 hodiny
Reference (3)
Mít praktické sezení a úkoly
Poornima Chenthamarakshan - Intelligent Medical Objects
Kurz - Apache Spark in the Cloud
Přeloženo strojem
1. Správné vyvážení mezi vysokou úrovní konceptů a technickými detaily. 2. Andras je velmi dobře seznámen s tím, co učí. 3. Cvičení
Steven Wu - Intelligent Medical Objects
Kurz - Apache Spark in the Cloud
Přeloženo strojem
Při této školení se naučíte Spark Streaming, Databricks a AWS Redshift.
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Kurz - Apache Spark in the Cloud
Přeloženo strojem