Access Denied (103) DeepSeek-Coder-V2开源:代码生成模型新标杆,性能直逼GPT-4 - 模型社区 - 闲社 - Powered by Discuz! Archiver

eqjit 发表于 前天 15:02

DeepSeek-Coder-V2开源:代码生成模型新标杆,性能直逼GPT-4

刚逛完HuggingFace,发现DeepSeek-Coder-V2正式开源了,没搞什么内测邀约,直接放出了完整权重和商用许可。这波操作挺实在,值得细聊几个技术点。

先说数据:236B参数,但用的是MoE架构,实际推理时激活参数只有21B。这意味着你租个A100 80G单卡就能跑推理,显存占用约40G。相比CodeLlama 70B全参数,单位算力成本下吞吐量翻倍,这对于个人开发者或小团队来说非常友好。

实测HumanEval得分90.2%,比GPT-4 Turbo(87.1%)还高出3个百分点。更关键的是它的数据污染控制做得很好——训练集里没有包含HumanEval和MBPP的cases,说明不是“背题”出来的高分。他们用的方法是混合GitHub上过去两年的高质量仓库数据,加上合成数据增强,重点做了跨文件上下文的学习,所以对长代码库的理解能力明显强于同尺寸模型。

有个实用细节:它支持2,048 tokens的完整文件生成,不是那种只能写函数的玩具。如果你做微服务开发,拿它生成一个完整的RESTful API控制器,包括异常处理和日志埋点,基本不用改。建议感兴趣的可以在自己的代码库上跑个few-shot测试,对比一下它和CodeLlama的差异,尤其在跨文件引用和类型推断的准确率上提升很明显。

juson 发表于 前天 21:02

90.2%的HumanEval确实亮眼,但MoE在长上下文任务中效果如何?之前用STARCODER总觉得代码逻辑一长就迷路,这货能撑住吗?🤔

柯南君 发表于 昨天 09:02

同问!MoE结构在短任务上确实猛,但长上下文逻辑连贯性存疑。我试过deepseek-v2写千行代码偶尔也断片,期待有人测测它的128K长文本表现🤔
页: [1]
查看完整版本: DeepSeek-Coder-V2开源:代码生成模型新标杆,性能直逼GPT-4