Návrh Školení

Úvod do Data Analysis a Big Data

  • Co dělá Big Data "velkým"?
    • Rychlost, objem, rozmanitost, pravdivost (VVVV)
  • Omezení tradičního zpracování dat
  • Distribuované zpracování
  • Statistická analýza
  • Typy Machine Learning analýzy
  • Data Visualization

Big Data Role a odpovědnosti

  • Správci
  • Vývojáři
  • Analytici dat

Languages Použito pro Data Analysis

  • R Language
    • Proč R jako Data Analysis?
    • Manipulace s daty, výpočty a grafické zobrazení
  • Python
    • Proč Python za Data Analysis?
    • Manipulace, zpracování, čištění a drcení dat

Přístupy k Data Analysis

  • Statistická analýza
    • Analýza časových řad
    • Forecasting s korelačními a regresními modely
    • Inferenční Statistics (odhad)
    • Popisné Statistics v Big Data sadách (např. výpočet průměru)
  • Machine Learning
    • Učení pod dohledem vs. učení bez dozoru
    • Klasifikace a shlukování
    • Odhad nákladů na konkrétní metody
    • Filtrování
  • Zpracování přirozeného jazyka
    • Zpracování textu
    • Pochopení významu textu
    • Automatické generování textu
    • Analýza sentimentu / analýza tématu
  • Computer Vision
    • Získávání, zpracování, analýza a pochopení obrázků
    • Rekonstrukce, interpretace a pochopení 3D scén
    • Využití obrazových dat k rozhodování

Big Data Infrastruktura

  • Ukládání dat
    • Relační databáze (SQL)
      • MySQL
      • Postgres
      • Oracle
    • Nerelační databáze (NoSQL)
      • Cassandra
      • MongoDB
      • Neo4js
    • Pochopení nuancí
      • Hierarchické databáze
      • Objektově orientované databáze
      • Dokumentově orientované databáze
      • Grafově orientované databáze
      • Ostatní
  • Distribuované zpracování
    • Hadoop
      • HDFS jako distribuovaný souborový systém
      • MapReduce pro distribuované zpracování
    • Jiskra
      • All-in-one in-memory cluster computing framework pro rozsáhlé zpracování dat
      • Strukturované streamování
      • Jiskra SQL
      • Machine Learning knihovny: MLlib
      • Zpracování grafu pomocí GraphX
  • Scalaschopnost
    • Veřejný cloud
      • AWS, Google, Aliyun atd.
    • Soukromý cloud
      • OpenStack, Cloud Foundry atd.
    • Automatická škálovatelnost

Výběr správného řešení problému

Budoucnost Big Data

Shrnutí a další kroky

Požadavky

  • Obecná znalost matematiky
  • Obecná znalost programování
  • Obecná znalost databází

Publikum

  • Vývojáři / programátoři
  • IT konzultanti
 35 hodiny

Počet účastníků


Price per participant

Reference (7)

Upcoming Courses

Související kategorie