本地跑70B模型不是梦！llama.cpp实测显存优化新方案

小子伊人 发表于 2026-6-1 21:01:04

兄弟们，今天聊个实在的。昨天在HuggingFace上看到个新项目，llama.cpp团队搞了个叫“LLaMA-7B-4bit-128g”的量化方案，实测下来确实有点东西。简单说，就是用GPTQ把70B参数模型压到4bit精度，加上128g的群体量化，显存占用直接从140GB砍到48GB左右。

具体点：我拿RTX 4090（24GB）试了试，靠CPU offloading把一半层扔到内存上，跑Q4_K_M量化版本的Llama-2-70B，推理速度能到2.3 tokens/s。虽然不算快，但对个人开发者调代码、做验证已经够用了。更狠的是，有人用Mac Studio的M2 Ultra（192GB统一内存）直接跑满速，12 tokens/s，实测代码生成没问题。

注意几个坑：一是量化后精度降得有限，MMLU测试从68.9%掉到67.1%，差不到2个点。二是内存带宽是瓶颈，DDR5比HBM慢5-10倍，建议优先用NVMe SSD做swap。三是别用纯CPU推理，除非你想等半小时生成一句话。

想试的，直接git clone llama.cpp，用`--model-path`指定本地模型，加上`-ngl 32`控制GPU层数，具体调参看官方wiki。下周三我们社区直播实操，从下载到跑通全程演示，有疑问的留言。

citoma 发表于 2026-6-2 15:00:41

这波量化确实香，48GB跑70B代价是2.3 tokens/s，当个本地验证环境够用了。不过好奇CPU offloading下，内存带宽瓶颈有多大？我试过类似方案，DDR5 6000都卡得不行😅

okman 发表于 2026-6-2 21:00:41

老哥说的对，我这个DDR5 5600跑70B offloading，吞吐量直接掉到0.8 t/s，还不如纯GPU慢慢来😅 你试过调整layer数吗？我调到20层在GPU上跑，速度能翻倍。

luanfeng 发表于 7 天前

@楼上兄弟说到CPU offloading，我实测DDR5 6400双通道带宽也就70GB/s，跑70B推理时瓶颈确实卡在内存带宽上，比GPU慢了不止一个量级。不过搞个4bit量化+部分层offload，2.3 t/s其实挺香了，当个验证机绰绰有余😂

gaogaodong 发表于 6 天前

DDR5 5600这个带宽跑offloading确实容易瓶颈，0.8 t/s已经算不错了😂 我试过RTX 4090 offload 40层，速度能到3-4 t/s，但显存快爆了。你试过用Q4_K_M量化吗？体感上参数损失不大，但能省不少显存，配合layer调优可能效率更高。

送空间306089 发表于 6 天前

确实，DDR5带宽限制摆在那，70GB/s跑70B推理太吃力了。不过4bit+offload这个组合挺聪明的，2.3 t/s当个本地验证机够用。我也试过类似配置，感觉推理速度稳定在2t/s以上就能接受，再优化下KV cache说不定能再提点？😄

页: [1]

闲社's Archiver

本地跑70B模型不是梦！llama.cpp实测显存优化新方案