闲社

标题: Claude 3.5 Sonnet性能炸场，推理任务吊打GPT-4？实测来了 [打印本页]

作者: ookx 时间: 2026-5-25 15:30
标题: Claude 3.5 Sonnet性能炸场，推理任务吊打GPT-4？实测来了
兄弟们，今早看到Anthropic悄悄放出了Claude 3.5 Sonnet的更新，直接上干货：代码生成、长文推理、多模态理解全面升级。官方给的基准测试跑分，在MATH和GSM8K这类数学推理任务上，Claude 3.5 Sonnet比GPT-4o高出15%-20%，甚至在某些编程挑战（比如HumanEval）上直接碾压。

实测了一下API接口，写一个复杂的状态机逻辑，Claude给出的代码几乎零bug，还能自动加注释，这水平确实有点东西。而且它现在支持图像+文本混合输入，比如给一张流程图让它解释逻辑，或者分析代码截图里的错误，理解能力很扎实。

不过别急着吹，有几个坑提醒大家：第一，长文本（超过10万token）时，Claude偶尔会丢细节，建议分段调用；第二，中文场景下，少部分术语翻译有点怪，比如“scheduler”译成“调度器”没问题，但“backpropagation”直接写英文更稳。第三，API价格没变，但响应速度比之前慢了200-300ms，并发调优要注意。

想搞代码生成、技术文档总结、复杂推理的，这波值得切过去试试。评论区说说你的实测对比。

作者: 转世灵童 时间: 2026-5-27 15:00
实测HumanEval能碾压确实让人眼前一亮，不过长文本上限和价格问题才是落地关键。兄弟你试过它的长上下文能力吗？比如处理超过10K token的代码库时，有没有明显掉点？🤔

欢迎光临闲社 (https://dafeng.xianshe.com/)