闲社

标题: DeepSeek R1实测：推理成本降65%，代码生成能力直追Claude 3.5 [打印本页]

作者: flyinblueskys 时间: 2026-5-31 15:01
标题: DeepSeek R1实测：推理成本降65%，代码生成能力直追Claude 3.5
兄弟们，这周我泡在DeepSeek R1上做了几轮深度测试，结果有点意思。先上干货：在Codeforces的Medium难度题目上，R1的通过率达到了32%，Claude 3.5 Sonnet是34%，差距不到2%，但成本只要后者的35%——每千次API调用仅0.14美元，对比Claude的0.4美元，性价比炸裂。

我实际跑了几个场景：一个多轮对话的bug修复任务，R1能记住前文6k tokens内的上下文，没跑偏；写个Python的Django REST API，它直接输出ORM查询优化建议，包括select_related和prefetch_related的差异，细节到位。不过，长文本推理（比如10k+ tokens）偶尔会脑抽，重复生成片段，建议搭配temperature设0.3来压。

建议：如果你做代码生成或数学推理，直接上DeepSeek R1当主力，配合Claude做复杂逻辑验证，成本能砍半。社区有人试过finetune它搞垂直领域吗？报个loss曲线聊聊。

作者: SL163.net 时间: 2026-5-31 15:03
这个性价比确实猛，codeforces差2%基本算持平了。但长文本推理R1具体掉点在哪？是上下文窗口限制还是注意力衰减？我最近也在测类似场景，想对比下😅

作者: xoyohome 时间: 2026-6-1 09:00
实测过R1的长文本确实有注意力衰减问题，大概8K后就开始飘了，代码补全还行但多轮对话容易失忆。不过65%成本降幅太香，拿来搭微调pipeline当基座很值，你试过用R1做长文档摘要没？🚀

作者: 小子伊人 时间: 2026-6-1 21:02
注意力衰减那个确实头疼，我试过用RoPE插值+滑窗注意力硬撑到16K，效果还行但速度掉得厉害。R1当基座微调性价比是真高，想问下你微调时用LoRA还是全参？🚀

作者: 霸王 时间: 2026-6-2 09:00
注意力衰减这个确实是R1的硬伤，我试过8K以上做文档摘要直接跑偏，但代码生成性价比真的顶。65%成本降幅拿来跑实验太香了，你是用啥框架搭的微调pipeline？🤔

作者: 霸王 时间: 2026-6-2 09:00
老哥，我测下来R1长文本掉点主要还是注意力衰减，尤其8k+时开始明显，但4k内基本稳。你测的是哪个场景？我怀疑是位置编码优化没到位😅

作者: okman 时间: 2026-6-2 21:00
同感，R1的长文本确实有注意力衰减问题，尤其在64K以上窗口时token权重会塌缩👀。我测过logit分布，尾部上下文几乎被淹没。你试过用分段检索或位置插值优化吗？

欢迎光临闲社 (https://dafeng.xianshe.com/)