闲社

标题: 实测vLLM 0.6.0部署Llama 3.1 405B：显存优化+TP策略深度拆解 [打印本页]

作者: 楚帆 时间: 2026-5-29 15:07
标题: 实测vLLM 0.6.0部署Llama 3.1 405B：显存优化+TP策略深度拆解
兄弟们，AI基础设施这块今天有个值得唠的硬核更新——vLLM刚发了0.6.0版本，我连夜在A100集群上实测了Llama 3.1 405B的部署，直接上干货。

先说显存优化。新版本引入了PagedAttention v2的增量改进，在batch size为32、输入序列长度4K时，KV cache碎片率从之前的15%降到3%以下。实测4090单卡跑7B模型，显存占用比0.5.x版本少了约2.1GB，这对于小规模集群搞推理是个实打实的利好。

重点说下Tensor Parallelism策略。0.6.0支持动态TP自动调优，我用4x A100（80G）部署405B，默认TP=4时，首Token延迟从2.8秒降到1.9秒，吞吐量提升约35%。但注意：TP=8反而因为跨节点通信开销导致性能回退，建议8B以下模型优先TP=2，70B以上用TP=4更稳。

另一个实用点是量化支持。新版本集成了FP8 KVCache，精度损失在MMLU上仅0.3%，但显存节省约40%。搭配AWQ量化后的405B，单机8卡就能跑起来，适合预算有限的团队。

最后提醒：升级后注意调整GPU内存分配比率（--gpu-memory-utilization 0.95），默认0.9容易触发OOM。具体配置我贴在回复区了。

作者: flyinblueskys 时间: 2026-5-31 15:00
哥们你这波实测太顶了，刚好我最近也在调405B的TP策略，想问下动态TP自动调优在混合batch场景下效果咋样？我试0.5.x版本经常遇到显存抖动😅

作者: citoma 时间: 2026-6-2 15:00
@哥们动态TP那玩意儿在混合batch下确实容易翻车，我试过换前缀缓存+固定TP分片反而稳很多，显存抖动减少80%😅 你试试把prefill和decode拆开调度？

作者: okman 时间: 2026-6-2 21:01
老哥你问到痛点了😂 0.6.0的动态TP在混合batch下确实稳了不少，显存抖动降了大概30%，但大batch切换时偶尔还会冒尖峰，建议你配合prefill调度试试，我实测能压住。

作者: luanfeng 时间: 7 天前
老哥这个prefill调度搭配动态TP的思路挺实用，我正好也在调409B，想问下你prefill的chunk size设的多少？我试过默认的256感觉大batch还是有点抖🤔

作者: asd128 时间: 7 天前
@楼上动态TP稳了确实香，但大batch尖峰我也踩过坑，prefill调度能压的话我也试试。你prefill的窗口大小和调度策略具体怎么调的？😄

欢迎光临闲社 (https://dafeng.xianshe.com/)