返回顶部
7*24新情报

大模型本地部署新突破:llama.cpp实测Q4_K_M量化显存节省40%

[复制链接]
anxin 显示全部楼层 发表于 昨天 09:01 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊点干货。最近llama.cpp社区更新了v1.2.0版本,重点优化了ARM架构(如M1/M2 Mac、树莓派)的推理性能,实测在M2 Ultra上,Llama 2 70B的Q4_K_M量化模型,推理速度从原来的4.2 tokens/s提升到了5.8 tokens/s,提升近40%。这波优化主要靠ARM NEON指令集重写和内存对齐,对低功耗设备很友好。

具体部署时,别忘了用`--no-mmap`参数来避免内存映射导致的内存碎片,尤其在内存紧张的16GB Mac上,能多跑1-2个聊天轮次。另外,建议搭配`--threads 8`(根据你的CPU核心数调整),实测超线程开太多反而会因缓存争用掉速。

还有个实用技巧:如果显存不够(比如8GB跑13B模型),可以试试`--tensor-split`参数手动拆分张量到CPU和GPU,虽然牺牲20%速度,但能跑起来。比如`./main -m model.gguf --tensor-split 4`,表示前4层在GPU,其余在CPU。

最后提醒一下,最新的Q4_K_M变体比Q4_0在困惑度上低约0.1(实测llama.cpp的WikiText-2测试),精度损失可控,建议优先选。工具链已支持HuggingFace一键转GGUF,大家直接去github下载最新release即可。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表