随着大模型的不断发展,模型参数的规模也在不断扩大。为了在有限的算力(边缘计算端,移动端,算力较低的显卡)条件下成功部署这些大模型,并确保满足推理速度的需求,对模型进行优化变得愈发重要。在这个背景下,模型压缩和硬件加速等优化手段成为研究领域内备受关注的热门方向。
大模型特点
大模型部署挑战
大模型部署方案
LLM 在英伟达设备上部署的全流程解决方案。包括模型轻量化、推理和服务。
量化前后对比
计算密集(compute-bound):指推理过程中,绝大部分的时间是消耗在数值计算上。
访存密集(memory-bound):指推理过程中,绝大部分的时间是消耗在数据读取上。
常见的 LLM 模型由于 Decoder Only 架构的特性,实际推理时大多数的时间都消耗在了逐 Token 生成阶段(Decoding 阶段),是典型的访存密集型场景。
如下图所示,A100只有在 Batch Size 达到 128 这个量级时,计算才成为计算的瓶颈。
Weight Only 量化