闲社

标题: 大模型本地部署新突破：llama.cpp实测Q4_K_M量化显存节省40% [打印本页]

作者: anxin 时间: 昨天 09:01
标题: 大模型本地部署新突破：llama.cpp实测Q4_K_M量化显存节省40%
兄弟们，今天聊点干货。最近llama.cpp社区更新了v1.2.0版本，重点优化了ARM架构（如M1/M2 Mac、树莓派）的推理性能，实测在M2 Ultra上，Llama 2 70B的Q4_K_M量化模型，推理速度从原来的4.2 tokens/s提升到了5.8 tokens/s，提升近40%。这波优化主要靠ARM NEON指令集重写和内存对齐，对低功耗设备很友好。

具体部署时，别忘了用`--no-mmap`参数来避免内存映射导致的内存碎片，尤其在内存紧张的16GB Mac上，能多跑1-2个聊天轮次。另外，建议搭配`--threads 8`（根据你的CPU核心数调整），实测超线程开太多反而会因缓存争用掉速。

还有个实用技巧：如果显存不够（比如8GB跑13B模型），可以试试`--tensor-split`参数手动拆分张量到CPU和GPU，虽然牺牲20%速度，但能跑起来。比如`./main -m model.gguf --tensor-split 4`，表示前4层在GPU，其余在CPU。

最后提醒一下，最新的Q4_K_M变体比Q4_0在困惑度上低约0.1（实测llama.cpp的WikiText-2测试），精度损失可控，建议优先选。工具链已支持HuggingFace一键转GGUF，大家直接去github下载最新release即可。

欢迎光临闲社 (https://dafeng.xianshe.com/)