Návrh Školení

Zavedení

  • Učení prostřednictvím pozitivního posilování

Elements z Reinforcement Learning

Důležité podmínky (akce, stavy, odměny, zásady, hodnota, hodnota Q atd.)

Přehled metod tabulkového řešení

Vytvoření softwarového agenta

Pochopení přístupů založených na hodnotách, zásadách a modelech

Práce s Markovovým rozhodovacím procesem (MDP)

Jak zásady definují způsob chování agenta

Použití metod Monte Carlo

Temporal-Difference Learning

n-krok Bootstrapping

Přibližné metody řešení

On-policy Predikce s aproximací

On-policy Control s aproximací

Off-policy metody s aproximací

Pochopení trasování způsobilosti

Použití metod gradientu zásad

Shrnutí a závěr

Požadavky

  • Zkušenosti se strojovým učením
  • Programming zkušenost

Publikum

  • Datoví vědci
 21 hodiny

Počet účastníků


Price per participant

Upcoming Courses

Související kategorie