香港二樓書店 > 更少GPU卻更強 - LLM輕量化壓縮及加速訓練

前言

在人工智慧迅猛發展的浪潮中，大規模神經網路模型憑藉其卓越性能，已然成為自然語言處理、電腦視覺等諸多領域的核心競爭力。然而，大模型複雜度與資源需求的急劇膨脹，讓如何在確保精度的同時，大幅削減計算成本、提升部署效率，成為了產業界與學術界共同矚目的焦點。

本書的創作靈感，正是源自業界對於大模型輕量化愈發迫切的需求。近年來，Transformer 和 Mixture of Experts（MoE）等前端架構引領了深度學習的革新潮流，但也帶來了對運算資源的巨額消耗。在此背景下，模型壓縮技術如量化、剪枝和蒸餾應運而生，為破解資源瓶頸提供了有力武器，而工程最佳化策略則進一步夯實了其實踐基礎。本書緊緊圍繞這一主題，全面探討大模型輕量化技術，包括模型壓縮、訓練與推理加速、端側學習與計算引擎最佳化，結合實際案例與工程實現，助力提升大模型的部署效率與計算性能。

本書共分為3 部分：

第1 部分（第1~5 章），主要闡述了大模型輕量化的基本理論。第1 章概述了大模型的興起背景與技術挑戰，以Transformer 與MoE 架構為例，分析其在性能與計算複雜度上的權衡。第2~5 章從理論和實踐出發，探討模型壓縮的多種技術路徑，透過實際案例說明其在提升效率與降低儲存需求方面的具體應用。為幫助讀者深入理解，書中附有精心設計的程式範例和測試資料，驗證模型輕量化的實際效果。

第2 部分（第6、7 章），基於第1 部分的理論沉澱，深入拓展模型輕量化理論，並以程式實踐加以詮釋。在第6 章介紹了端側學習、計算引擎最佳化和資源配置等領域的關鍵技術。端側學習章節特別關注聯邦學習及其在隱私保護中的應用；計算引擎最佳化部分則涵蓋動態Batch 和多副本並行排程等核心技術，解析其在實際部署中的工程困難。第7 章則重點介紹高性能運算子函式庫，為後續運算子開發做好準備。

第3 部分（第8~10 章），重點介紹高性能運算子函式庫及手工運算子的開發，分別以cuDNN、CUDA、Vulkan 等為代表，從理論基礎到實作方式層層深入，闡明運算子最佳化的工程細節。運算子的最佳化在大規模訓練和推理任務中具有決定性作用。最後，以開放原始碼力作DeepSeek-V3 模型為例，完整呈現從模型訓練至推理的輕量化全過程。

本書適合從事大模型開發與最佳化的工程師和研究人員，尤其是對模型壓縮、計算引擎最佳化和高效部署有需求的讀者，旨在為他們提供深入的理論分析與實用的技術實現，幫助其應對大模型應用中的計算瓶頸和資源挑戰。

在本書的撰寫征程中，承蒙許多同行、專家以及學者的慷慨相助與鼎力扶持，在此向每一位提供寶貴意見與鼓勵的朋友致以最崇高的敬意與誠摯的感激。

同時，對參與本書內容研討與案例驗證工作的工程師和團隊表示由衷的感謝。是他們的不懈努力與智慧交融，使本書實現了理論精華與實踐智慧的完美融合，架設起一座通向大模型輕量化核心技術深處的堅實橋樑。

期望本書能夠為讀者們提供有價值的知識與實踐指導，幫助大家在大模型領域取得更大的進展。無論您是衝鋒在大模型開發最前線的工程師，還是深耕於學術研究領域的學者，都希望本書能夠成為您成長與突破的得力幫手，助您在AI 技術的快速發展中不斷探索與創新。

如果讀者在學習本書的過程中遇到問題，可以發送郵件至booksaga@126.com，郵件主題為「大模型輕量化：模型壓縮與訓練加速」。

?

作者