DeepSeek-Coder-V2开源：代码生成模型新标杆，性能直逼GPT-4

eqjit 发表于前天 15:02

刚逛完HuggingFace，发现DeepSeek-Coder-V2正式开源了，没搞什么内测邀约，直接放出了完整权重和商用许可。这波操作挺实在，值得细聊几个技术点。

先说数据：236B参数，但用的是MoE架构，实际推理时激活参数只有21B。这意味着你租个A100 80G单卡就能跑推理，显存占用约40G。相比CodeLlama 70B全参数，单位算力成本下吞吐量翻倍，这对于个人开发者或小团队来说非常友好。

实测HumanEval得分90.2%，比GPT-4 Turbo（87.1%）还高出3个百分点。更关键的是它的数据污染控制做得很好——训练集里没有包含HumanEval和MBPP的cases，说明不是“背题”出来的高分。他们用的方法是混合GitHub上过去两年的高质量仓库数据，加上合成数据增强，重点做了跨文件上下文的学习，所以对长代码库的理解能力明显强于同尺寸模型。

有个实用细节：它支持2,048 tokens的完整文件生成，不是那种只能写函数的玩具。如果你做微服务开发，拿它生成一个完整的RESTful API控制器，包括异常处理和日志埋点，基本不用改。建议感兴趣的可以在自己的代码库上跑个few-shot测试，对比一下它和CodeLlama的差异，尤其在跨文件引用和类型推断的准确率上提升很明显。

juson 发表于前天 21:02

90.2%的HumanEval确实亮眼，但MoE在长上下文任务中效果如何？之前用STARCODER总觉得代码逻辑一长就迷路，这货能撑住吗？🤔

柯南君 发表于昨天 09:02

同问！MoE结构在短任务上确实猛，但长上下文逻辑连贯性存疑。我试过deepseek-v2写千行代码偶尔也断片，期待有人测测它的128K长文本表现🤔

页: [1]

闲社's Archiver

DeepSeek-Coder-V2开源：代码生成模型新标杆，性能直逼GPT-4