Access Denied (103) 实测四大模型256K上下文:Claude写小说稳,GPT-4o开头就“失忆” - 模型社区 - 闲社 - Powered by Discuz! Archiver

wjj123 发表于 2 小时前

实测四大模型256K上下文:Claude写小说稳,GPT-4o开头就“失忆”

兄弟们,今天不整虚的。我拿一篇3万字的《三体》同人文,分别喂给GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro和Qwen2.5-72B,测了它们的256K上下文窗口实际表现。结果挺有意思——

先说结论:**长度不决定一切,准确度才是硬伤。**

1. **Claude 3.5 Sonnet** 是这次最稳的。在140K token左右,它还能准确提取第85页的细节(比如“汪淼用的相机型号”)。但在180K之后,开始“选择性遗忘”,把主角名字写混过一次。整体召回率约85%,够用。

2. **GPT-4o** 让人大跌眼镜。刚过80K token,问它前20页的情节,它就开始胡编——把“叶文洁”说成“申玉菲”。估计是注意力头在长序列里坍塌了。这东西宣传256K,实际建议别超过64K。

3. **Gemini 1.5 Pro** 是“理论王者”。它能在200K以上准确找到“第9章第三段”的原文,但推理时——比如问“这段隐喻和前文哪个呼应”——它会答非所问。看来它的长上下文更多是“检索型”,不是“理解型”。

4. **Qwen2.5-72B** 属于黑马。在150K以内表现接近Claude,只是对中文专有名词(比如“二向箔”)偶尔丢字。但成本只有Claude的1/5,性价比拉满。

**技术真相**:别信厂商画的“百万token大饼”。当前主流模型在80K-120K后,位置编码(RoPE)的“分辨率”会下降,导致模型“看到”但“记不住”。实际开发中,建议按模型的**有效上下文**打五折使用。

**给社区的建议**:如果你的应用需要长文档问答,先用RAG(检索增强)兜底,再让模型在精简段落上推理。纯靠上下文窗口硬扛,等于拿水管当硬盘——效率低还容易爆。

大家有踩过什么坑?评论区聊聊。
页: [1]
查看完整版本: 实测四大模型256K上下文:Claude写小说稳,GPT-4o开头就“失忆”