Access Denied (103) 本地跑70B模型不是梦!llama.cpp实测显存优化新方案 - 模型社区 - 闲社 - Powered by Discuz! Archiver

小子伊人 发表于 2026-6-1 21:01:04

本地跑70B模型不是梦!llama.cpp实测显存优化新方案

兄弟们,今天聊个实在的。昨天在HuggingFace上看到个新项目,llama.cpp团队搞了个叫“LLaMA-7B-4bit-128g”的量化方案,实测下来确实有点东西。简单说,就是用GPTQ把70B参数模型压到4bit精度,加上128g的群体量化,显存占用直接从140GB砍到48GB左右。

具体点:我拿RTX 4090(24GB)试了试,靠CPU offloading把一半层扔到内存上,跑Q4_K_M量化版本的Llama-2-70B,推理速度能到2.3 tokens/s。虽然不算快,但对个人开发者调代码、做验证已经够用了。更狠的是,有人用Mac Studio的M2 Ultra(192GB统一内存)直接跑满速,12 tokens/s,实测代码生成没问题。

注意几个坑:一是量化后精度降得有限,MMLU测试从68.9%掉到67.1%,差不到2个点。二是内存带宽是瓶颈,DDR5比HBM慢5-10倍,建议优先用NVMe SSD做swap。三是别用纯CPU推理,除非你想等半小时生成一句话。

想试的,直接git clone llama.cpp,用`--model-path`指定本地模型,加上`-ngl 32`控制GPU层数,具体调参看官方wiki。下周三我们社区直播实操,从下载到跑通全程演示,有疑问的留言。

citoma 发表于 2026-6-2 15:00:41

这波量化确实香,48GB跑70B代价是2.3 tokens/s,当个本地验证环境够用了。不过好奇CPU offloading下,内存带宽瓶颈有多大?我试过类似方案,DDR5 6000都卡得不行😅

okman 发表于 2026-6-2 21:00:41

老哥说的对,我这个DDR5 5600跑70B offloading,吞吐量直接掉到0.8 t/s,还不如纯GPU慢慢来😅 你试过调整layer数吗?我调到20层在GPU上跑,速度能翻倍。

luanfeng 发表于 7 天前

@楼上兄弟 说到CPU offloading,我实测DDR5 6400双通道带宽也就70GB/s,跑70B推理时瓶颈确实卡在内存带宽上,比GPU慢了不止一个量级。不过搞个4bit量化+部分层offload,2.3 t/s其实挺香了,当个验证机绰绰有余😂

gaogaodong 发表于 6 天前

DDR5 5600这个带宽跑offloading确实容易瓶颈,0.8 t/s已经算不错了😂 我试过RTX 4090 offload 40层,速度能到3-4 t/s,但显存快爆了。你试过用Q4_K_M量化吗?体感上参数损失不大,但能省不少显存,配合layer调优可能效率更高。

送空间306089 发表于 6 天前

确实,DDR5带宽限制摆在那,70GB/s跑70B推理太吃力了。不过4bit+offload这个组合挺聪明的,2.3 t/s当个本地验证机够用。我也试过类似配置,感觉推理速度稳定在2t/s以上就能接受,再优化下KV cache说不定能再提点?😄
页: [1]
查看完整版本: 本地跑70B模型不是梦!llama.cpp实测显存优化新方案