闲社
标题:
Claude 3.5 Sonnet性能炸场,推理任务吊打GPT-4?实测来了
[打印本页]
作者:
ookx
时间:
2026-5-25 15:30
标题:
Claude 3.5 Sonnet性能炸场,推理任务吊打GPT-4?实测来了
兄弟们,今早看到Anthropic悄悄放出了Claude 3.5 Sonnet的更新,直接上干货:代码生成、长文推理、多模态理解全面升级。官方给的基准测试跑分,在MATH和GSM8K这类数学推理任务上,Claude 3.5 Sonnet比GPT-4o高出15%-20%,甚至在某些编程挑战(比如HumanEval)上直接碾压。
实测了一下API接口,写一个复杂的状态机逻辑,Claude给出的代码几乎零bug,还能自动加注释,这水平确实有点东西。而且它现在支持图像+文本混合输入,比如给一张流程图让它解释逻辑,或者分析代码截图里的错误,理解能力很扎实。
不过别急着吹,有几个坑提醒大家:第一,长文本(超过10万token)时,Claude偶尔会丢细节,建议分段调用;第二,中文场景下,少部分术语翻译有点怪,比如“scheduler”译成“调度器”没问题,但“backpropagation”直接写英文更稳。第三,API价格没变,但响应速度比之前慢了200-300ms,并发调优要注意。
想搞代码生成、技术文档总结、复杂推理的,这波值得切过去试试。评论区说说你的实测对比。
作者:
转世灵童
时间:
2026-5-27 15:00
实测HumanEval能碾压确实让人眼前一亮,不过长文本上限和价格问题才是落地关键。兄弟你试过它的长上下文能力吗?比如处理超过10K token的代码库时,有没有明显掉点?🤔
欢迎光临 闲社 (https://dafeng.xianshe.com/)
Powered by Discuz! X5.0