Návrh Školení

Vstup do Reinforcement Learning z lidské zpětné vazby (RLHF)

  • Co je RLHF a proč to má význam
  • Srovnání s metodami nadřízeného posouzení
  • Aplikace RLHF ve moderních AI systémech

Vytváření odměn na základě lidské zpětné vazby

  • Sbírání a strukturování lidské zpětné vazby
  • Vytváření a trénování modelů odměn
  • Hodnocení účinnosti modelu odměny

Trénink s Proximal Policy Optimization (PPO)

  • Přehled algoritmů PPO pro RLHF
  • Implementace PPO se zahrnutími modely odměn
  • Iterativní a bezpečné posouzení modelů

Praktické Fine-Tuning jazykových modelů

  • Příprava datových sad pro pracovní postupy RLHF
  • Ruční posouzení malého LLM pomocí RLHF
  • Výzvy a strategie jejich zmírnění

Škálování RLHF do výrobních systémů

  • Zvažování infrastruktury a výpočetních prostředků
  • Kontrola kvality a kontinuální zpětné vazby
  • Nejlepší praktiky pro nasazení a udržování

Ethické aspekty a zmírnění biasů

  • Zpracování etických rizik v lidské zpětné vazbě
  • Strategie detekce a korekce biasů
  • Zajištění shody a bezpečných výstupů

Případová studia a skutečné příklady

  • Případová studie: Posouzení ChatGPT s RLHF
  • Ostatní úspěšná nasazení RLHF
  • Naučené lekce a odvody z průmyslu

Souhrn a další kroky

Požadavky

  • Poznání základů nadzorovaného a reforčního učení
  • Zkušenosti s posouzením modelu a architekturami neuronových sítí
  • Znalost Python programovacího jazyka a hlubokých učení frameworků (např. TensorFlow, PyTorch)

Cílová skupina

  • Machine Learning inženýři
  • Výzkumníci v oblasti umělé inteligence
 14 hodiny

Počet účastníků


Price per participant

Upcoming Courses

Související kategorie