Návrh Školení

Úvod do Multimodal AI

  • Přehled multimodální umělé inteligence a aplikací v reálném světě
  • Výzvy při integraci textových, obrazových a zvukových dat
  • Nejmodernější výzkum a pokroky

Zpracování dat a Feature Engineering

  • Zpracování textových, obrazových a zvukových datových sad
  • Techniky předběžného zpracování pro multimodální učení
  • Strategie extrakce rysů a fúze dat

Vytváření multimodálních modelů pomocí PyTorch a Hugging Face

  • Úvod do PyTorch pro multimodální učení
  • Použití Hugging Face transformátorů pro NLP a úkoly vidění
  • Kombinace různých modalit v jednotném modelu AI

Implementace fúze řeči, vidění a textu

  • Integrace OpenAI Whisper pro rozpoznávání řeči
  • Použití DeepSeek-Vision pro zpracování obrazu
  • Techniky fúze pro crossmodální učení

Modely školení a optimalizace Multimodal AI

  • Modelové tréninkové strategie pro multimodální AI
  • Optimalizační techniky a ladění hyperparametrů
  • Řešení zkreslení a zlepšení zobecnění modelu

Nasazení Multimodal AI v aplikacích Real-World

  • Export modelů pro produkční použití
  • Nasazení modelů AI na cloudových platformách
  • Monitorování výkonu a údržba modelu

Pokročilá témata a budoucí trendy

  • Učení s nulovým a několika záběry v multimodální umělé inteligenci
  • Etické ohledy a zodpovědný vývoj AI
  • Nové trendy ve výzkumu multimodální umělé inteligence

Shrnutí a další kroky

Požadavky

  • Silné porozumění konceptům strojového učení a hlubokého učení
  • Zkušenosti s AI frameworky jako PyTorch nebo TensorFlow
  • Znalost zpracování textových, obrazových a zvukových dat

Publikum

  • Vývojáři AI
  • Inženýři strojového učení
  • Výzkumníci
 21 hodiny

Počet účastníků


Price per participant

Upcoming Courses

Související kategorie