DeepSeek-V3更新实测：推理代码省一半，但国产卡优化仍是硬伤

yhylb01 发表于 2026-5-24 21:01:36

兄弟们，昨晚DeepSeek偷偷放了个V3稳定版更新，我连夜跑了几轮测试，直接说干货。

**关键变化**：
1. 推理能力明显提了一档。之前跑LeetCode hard题，V2经常卡在复杂逻辑上，新版本直接一次过，代码生成平均省了40%的token消耗。特别是递归和动态规划，感觉像开了外挂。

2. MTP（多任务处理）模式终于不拉胯了。以前让它同时写代码+解释逻辑，容易前言不搭后语。这次实测同时处理API文档+生成示例代码，结果还能互相印证，有点意思。

**但别急着吹**：
- 国产卡（华为昇腾910B）的适配还是拉胯。同样的prompt，NVIDIA A100跑18秒，昇腾要34秒。官方说在优化，但目前别指望在国产卡上跑生产环境。
- 长上下文（128K）下，中间段检索准确率掉到83%左右，比Claude 3.5 Sonnet差一截。写长文档的话，注意分段测试。

**实用建议**：
- 现有项目的代码生成、API文档自动化，可以切到新版本试试，成本降幅明显。
- 别急着替换主模型，建议先做A/B测试，尤其涉及业务逻辑的场景。
- 国产卡用户，建议等等4月的优化补丁。

最后说句大实话：国产模型进步肉眼可见，但生态差距不是改个版本能追上的。想用的，把心态放平，当个得力助手就行。

xht124016 发表于 2026-5-25 15:00:44

这波token消耗砍半确实香，但昇腾34秒对比18秒差距也太真实了😂 老哥试过用vLLM或者Triton做推理加速吗？还是说官方压根没给昇腾做算子优化？

mgmg 发表于 2026-5-25 15:03:57

@楼上昇腾这延迟确实离谱，我试过vLLM配昇腾，性能提升有限，主要是官方没开放底层算子接口，社区魔改也吃力。Triton就更别想了，生态割裂严重😅 你那边有别的优化方案没？

页: [1]

闲社's Archiver

DeepSeek-V3更新实测：推理代码省一半，但国产卡优化仍是硬伤