前言?
【第一部分 利用開放模型】?
第一章 生成媒體導論?
生成圖像?
生成文本?
產生一段聲音?
倫理與社會影響力?
我們的過去與現狀?
生成式AI模型是怎麼創造出來的??
總結?
第二章 transformer?
語言模型的實際運作?
transformer區塊?
transformer模型的發展譜系?
預訓的威力?
transformer回顧?
專案時間:使用語言模型來生成文本?
總結?
練習題?
挑戰題?
參考文獻?
第三章 壓縮資訊與表示資訊?
AutoEncoders?
Variational AutoEncoders?
CLIP?
CLIP的替代方案?
專案時間:語義圖像搜尋?
總結?
練習題?
挑戰題?
參考文獻?
第四章 擴散模型?
關鍵洞察:逐步修正?
訓練擴散模型?
深入探討:雜訊排程?
深入探討:UNet與替代方案?
深入探討:擴散目標?
專案時間:訓練你的擴散模型?
總結?
練習題?
挑戰題?
參考文獻?
第五章 穩定擴散和條件生成?
加入控制手段:條件擴散模型?
提升效率:Latent Diffusion?
Stable Diffusion:深入瞭解組件?
綜合所有內容:註解採樣迴圈?
開放資料,開放模型?
專案時間:使用Gradio 建立互動式ML Demo?
總結?
練習題?
挑戰題?
參考文獻?
【第二部分 運用遷移學習來建構生成模型】?
第六章 微調語言模型?
文本分類?
生成文本?
指令?
適配器簡介?
量化簡介?
綜合所有內容?
深入探討模型評估?
專案時間:檢索增強生成?
總結?
練習題?
挑戰題?
參考文獻?
第七章 微調Stable Diffusion?
完整的Stable Diffusion微調?
DreamBooth?
訓練LoRA?
賦予Stable Diffusion新能力?
專案時間:自己訓練一個SDXL DreamBooth LoRA?
總結?
練習題?
挑戰題?
參考文獻?
【第三部分 進一步探索】?
第八章 文字轉圖像模型的創意應用?
圖像轉圖像?
圖像修補?
提示詞加權與圖像編輯?
透過反轉來編輯真實圖像?
ControlNet?
圖像提示與圖像變體?
專案時間:你的創意畫布?
總結?
練習題?
參考文獻?
第九章 音訊生成?
音訊資料?
使用transformer-based 構來將語音轉為文字?
從文字轉語音到音訊生成?
評估音訊生成系統?
下一步呢??
專案時間:完整的對話系統?
總結?
練習題?
挑戰題?
參考文獻?
第十章 生成式AI的快速發展領域?
偏好優化?
極長的前後文?
Mixture of Experts?
優化與量化?
資料?
One Model to Rule Them All?
電腦視覺?
3D電腦視覺?
影片生成?
多模態?
社群?
附錄 A 開源工具?
附錄 B LLM記憶體需求?
附錄 C 全流程檢索增強生成?
索引?