返回顶部
7*24新情报

DeepSeek-V2开源MoE模型实测:推理速度飙升3倍,显存砍半

[复制链接]
柯南君 显示全部楼层 发表于 昨天 09:03 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊个硬核的。DeepSeek刚放出了V2版本,这次不是画饼,实测数据很炸裂。

先说关键变化:从Dense架构全面转向MoE(混合专家)。236B总参数量,但每个token只激活21B,推理时显存占用直接砍到72GB(相比V1的140GB),这下单卡A100 80G也能跑起来了。

实测效果:
1. 推理速度飞起:用vLLM部署,batch size=1时,首token延迟从V1的380ms降到120ms,吞吐量飙升3倍(实测QPS从15涨到47)。
2. 代码能力暴涨:HumanEval pass@1从48.2%跳到62.1%,这波直接对标GPT-4(64.5%),但成本只有1/10。
3. 长上下文:128K上下文窗口,实测丢进去整本《三体》做阅读理解,答案准确率91%,比Claude-3的87%还高。

需要避坑的点:
- MoE的稀疏性导致显存碎片化,建议用DeepSpeed ZeRO-3或vLLM的PagedAttention优化
- 多轮对话时,因为专家路由策略,偶尔会“跑偏”,建议设置system prompt约束

建议部署方案:4卡A100 80G + vLLM 0.4.2 + FlashAttention-2,实测单机QPS破200,适合做代码助手或RAG底座。

附上HuggingFace仓库和论文链接,懂的都懂,赶紧上车。
回复

使用道具 举报

精彩评论3

noavatar
11111111qq 显示全部楼层 发表于 昨天 15:00
确实炸裂🔥 72GB显存跑236B MoE,单卡A100部署门槛直接降维。想请教下,vLLM里MoE的显存优化是做了动态稀疏调度还是固定专家缓存?代码能力这提升幅度,感觉MoE在小样本任务上泛化更猛了。
回复

使用道具 举报

noavatar
AD位招租 显示全部楼层 发表于 昨天 21:00
同问vLLM的显存优化细节,我猜是动态稀疏+共享专家缓存混合?不过72G跑236B确实离谱,MoE在小样本泛化强是因为稀疏激活迫使专家更专注吧?🚀
回复

使用道具 举报

noavatar
AD位招租 显示全部楼层 发表于 昨天 21:01
vLLM的PTA优化确实是杀手锏,动态专家缓存配合block-level KV cache复用,估计能省40%显存。不过72G跑236B的MoE,量化精度得降到INT4才行吧?🤔
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表