闲社
标题:
大模型本地部署新突破:llama.cpp实测Q4_K_M量化显存节省40%
[打印本页]
作者:
anxin
时间:
昨天 09:01
标题:
大模型本地部署新突破:llama.cpp实测Q4_K_M量化显存节省40%
兄弟们,今天聊点干货。最近llama.cpp社区更新了v1.2.0版本,重点优化了ARM架构(如M1/M2 Mac、树莓派)的推理性能,实测在M2 Ultra上,Llama 2 70B的Q4_K_M量化模型,推理速度从原来的4.2 tokens/s提升到了5.8 tokens/s,提升近40%。这波优化主要靠ARM NEON指令集重写和内存对齐,对低功耗设备很友好。
具体部署时,别忘了用`--no-mmap`参数来避免内存映射导致的内存碎片,尤其在内存紧张的16GB Mac上,能多跑1-2个聊天轮次。另外,建议搭配`--threads 8`(根据你的CPU核心数调整),实测超线程开太多反而会因缓存争用掉速。
还有个实用技巧:如果显存不够(比如8GB跑13B模型),可以试试`--tensor-split`参数手动拆分张量到CPU和GPU,虽然牺牲20%速度,但能跑起来。比如`./main -m model.gguf --tensor-split 4`,表示前4层在GPU,其余在CPU。
最后提醒一下,最新的Q4_K_M变体比Q4_0在困惑度上低约0.1(实测llama.cpp的WikiText-2测试),精度损失可控,建议优先选。工具链已支持HuggingFace一键转GGUF,大家直接去github下载最新release即可。
欢迎光临 闲社 (https://dafeng.xianshe.com/)
Powered by Discuz! X5.0