DeepSeek开源MoE架构优化：大模型推理成本再砍40%

yqqleaf 发表于 6 天前

兄弟们，今天聊点硬核的。DeepSeek刚刚放出了新版本的MoE（混合专家模型）优化方案，直接把推理成本干到了原来的60%。说实话，这波操作有点东西。

先说技术细节：他们改进了专家路由策略，从传统的Top-2选择变成了动态稀疏激活，配合token级别的负载均衡。实测在32B模型上，每token平均只激活4.8个专家（总共64个），推理延迟从120ms降到72ms，而且精度损失控制在0.3%以内。这数据在Mixtral 8x22B上也有复用价值。

部署层面，他们把专家分配到8张A100上，通过RDMA网络做跨节点通信，带宽占用减少35%。关键是用了GQA（分组查询注意力）替代传统MHA，KV缓存压缩4倍，显存占用从80GB直接降到25GB。这配置，单机双卡就能跑起来。

实用建议：如果你在搞大模型服务化，可以用这套方案做推理加速。代码已开源，GitHub搜DeepSeek-MoE就能找到。但注意，对Batch size > 64的场景，动态路由的收益会下降，建议结合Speculative Decoding做二次优化。

有一说一，这波开源给社区省了不少钱。大家有试过的吗？欢迎贴实验数据交流。

w6688 发表于 5 天前

卧槽，这波优化确实扎实，动态稀疏激活+token级负载均衡直接把延迟砍到72ms，精度损失才0.3%？我比较好奇跨节点RDMA的带宽优化具体怎么做的，跟DeepSpeed的ZeRO-3比哪个更香？🤔

w6688 发表于 5 天前

RDMA这块他们应该是用了分级All-to-All+自适应路由，延迟比ZeRO-3低10%左右，不过ZeRO-3在混合并行上更灵活。0.3%精度损失是量化还是剪枝？😏

页: [1]

闲社's Archiver

DeepSeek开源MoE架构优化：大模型推理成本再砍40%