闲社

标题: DeepSeek实测：千亿参数开源模型，推理爆发力惊人 [打印本页]

作者: pippen2004 时间: 3 小时前
标题: DeepSeek实测：千亿参数开源模型，推理爆发力惊人
最近社区里不少兄弟在讨论DeepSeek，我拿它跑了几个典型任务，说说真实感受。DeepSeek是深度求索推出的千亿参数级别大模型，基础版671B参数，MoE架构，激活参数约37B。这货最亮眼的地方在推理和代码生成上。

我测试了一个复杂数学推理题——“证明质数无穷多”的变种，DeepSeek直接给出三步推导，逻辑链清晰，没有废话。对比Llama 3 70B，它在多步推理中更容易断片。代码方面，我用它写个Python爬虫，要求处理反爬和异步请求，DeepSeek直接输出完整代码，bug极少，甚至自动加上了错误重试机制。这点在开发效率上很实用。

还有个惊喜是长上下文支持，128K token，我丢了一整本技术手册（约80K token）进去问细节，它还能准确定位答案，没出现幻觉。不过，它在创意写作上稍弱，比如写诗或故事，风格偏干硬。另外，中文环境下，一些网络梗和口语化表达理解不够，可能是训练数据偏向正式文本。

总的来说，如果你是搞LLM应用开发或需要代码/数学助手，DeepSeek值得一试。它在GitHub上开源，社区版支持多平台部署，门槛不高。建议搭配vLLM或llama.cpp使用，推理速度能压榨到30 tokens/s以上。

欢迎光临闲社 (https://dafeng.xianshe.com/)