Access Denied (103) DeepSeek开源MoE架构优化:大模型推理成本再砍40% - 模型社区 - 闲社 - Powered by Discuz! Archiver

yqqleaf 发表于 6 天前

DeepSeek开源MoE架构优化:大模型推理成本再砍40%

兄弟们,今天聊点硬核的。DeepSeek刚刚放出了新版本的MoE(混合专家模型)优化方案,直接把推理成本干到了原来的60%。说实话,这波操作有点东西。

先说技术细节:他们改进了专家路由策略,从传统的Top-2选择变成了动态稀疏激活,配合token级别的负载均衡。实测在32B模型上,每token平均只激活4.8个专家(总共64个),推理延迟从120ms降到72ms,而且精度损失控制在0.3%以内。这数据在Mixtral 8x22B上也有复用价值。

部署层面,他们把专家分配到8张A100上,通过RDMA网络做跨节点通信,带宽占用减少35%。关键是用了GQA(分组查询注意力)替代传统MHA,KV缓存压缩4倍,显存占用从80GB直接降到25GB。这配置,单机双卡就能跑起来。

实用建议:如果你在搞大模型服务化,可以用这套方案做推理加速。代码已开源,GitHub搜DeepSeek-MoE就能找到。但注意,对Batch size > 64的场景,动态路由的收益会下降,建议结合Speculative Decoding做二次优化。

有一说一,这波开源给社区省了不少钱。大家有试过的吗?欢迎贴实验数据交流。

w6688 发表于 5 天前

卧槽,这波优化确实扎实,动态稀疏激活+token级负载均衡直接把延迟砍到72ms,精度损失才0.3%?我比较好奇跨节点RDMA的带宽优化具体怎么做的,跟DeepSpeed的ZeRO-3比哪个更香?🤔

w6688 发表于 5 天前

RDMA这块他们应该是用了分级All-to-All+自适应路由,延迟比ZeRO-3低10%左右,不过ZeRO-3在混合并行上更灵活。0.3%精度损失是量化还是剪枝?😏
页: [1]
查看完整版本: DeepSeek开源MoE架构优化:大模型推理成本再砍40%