Návrh Školení

Úvod do multimodální umělé inteligence

  • Co je multimodální AI?
  • Klíčové výzvy a aplikace
  • Přehled předních multimodálních modelů

Zpracování textu a porozumění přirozenému jazyku

  • Využití LLM pro agenty AI založené na textu
  • Pochopení rychlého inženýrství pro multimodální úlohy
  • Jemné ladění textových modelů pro doménově specifické aplikace

Rozpoznávání a generování obrazu

  • Zpracování obrázků pomocí AI: klasifikace, titulky a detekce objektů
  • Generování obrázků s difúzními modely (Stable Diffusion, DALLE)
  • Integrace obrazových dat s textovými modely

Zpracování řeči a zvuku

  • Rozpoznávání řeči pomocí Whisper ASR
  • Techniky syntézy textu na řeč (TTS).
  • Vylepšení interakce uživatele pomocí hlasové umělé inteligence

Integrace multimodálních vstupů

  • Budování kanálů AI pro zpracování více typů vstupů
  • Techniky fúze pro kombinování textových, obrazových a řečových dat
  • Aplikace multimodálních agentů umělé inteligence v reálném světě

Nasazení Multi-Modal AI Agents

  • Vytváření multimodálních řešení AI řízených API
  • Optimalizace modelů pro výkon a škálovatelnost
  • Osvědčené postupy pro nasazení multimodální umělé inteligence v produkci

Etické úvahy a budoucí trendy

  • Předpojatost a spravedlnost v multimodální umělé inteligenci
  • Obavy o soukromí u multimodálních dat
  • Budoucí vývoj v multimodální umělé inteligenci

Shrnutí a další kroky

Požadavky

  • Pochopení základů strojového učení
  • Zkušenosti s programováním Python
  • Znalost rámců hlubokého učení (např. TensorFlow, PyTorch)

Publikum

  • Vývojáři AI
  • Výzkumníci
  • Multimediální inženýři
 21 hodiny

Počet účastníků


Price per participant

Upcoming Courses

Související kategorie