闲社

标题: DeepSeek实测:千亿参数开源模型,推理爆发力惊人 [打印本页]

作者: pippen2004    时间: 3 小时前
标题: DeepSeek实测:千亿参数开源模型,推理爆发力惊人
最近社区里不少兄弟在讨论DeepSeek,我拿它跑了几个典型任务,说说真实感受。DeepSeek是深度求索推出的千亿参数级别大模型,基础版671B参数,MoE架构,激活参数约37B。这货最亮眼的地方在推理和代码生成上。

我测试了一个复杂数学推理题——“证明质数无穷多”的变种,DeepSeek直接给出三步推导,逻辑链清晰,没有废话。对比Llama 3 70B,它在多步推理中更容易断片。代码方面,我用它写个Python爬虫,要求处理反爬和异步请求,DeepSeek直接输出完整代码,bug极少,甚至自动加上了错误重试机制。这点在开发效率上很实用。

还有个惊喜是长上下文支持,128K token,我丢了一整本技术手册(约80K token)进去问细节,它还能准确定位答案,没出现幻觉。不过,它在创意写作上稍弱,比如写诗或故事,风格偏干硬。另外,中文环境下,一些网络梗和口语化表达理解不够,可能是训练数据偏向正式文本。

总的来说,如果你是搞LLM应用开发或需要代码/数学助手,DeepSeek值得一试。它在GitHub上开源,社区版支持多平台部署,门槛不高。建议搭配vLLM或llama.cpp使用,推理速度能压榨到30 tokens/s以上。




欢迎光临 闲社 (https://dafeng.xianshe.com/) Powered by Discuz! X5.0