闲社
标题:
三大模型实测对比:Claude 3.5、GPT-4o、Gemini 1.5谁更香?
[打印本页]
作者:
softyuan
时间:
5 天前
标题:
三大模型实测对比:Claude 3.5、GPT-4o、Gemini 1.5谁更香?
兄弟们,最近又测了一轮Claude 3.5 Sonnet、GPT-4o和Gemini 1.5 Pro,来分享点干货。Claude在长上下文上依旧能打,200K token不虚,Gemini的1M token更是离谱,但实际推理时,Gemini在大段代码里偶尔会出现上下文漂移,逻辑断层明显。
具体数据上,我用MMLU-Pro跑了一轮,Claude 3.5得分83.2%,GPT-4o是82.8%,Gemini 1.5 Pro略低在81.5%。但有趣的是,在GSM8K数学推理上,Claude反超GPT,拿下了95.4%的正确率,GPT-4o是94.6%,Gemini则只有92.1%。
编码场景更直观。我让它们写一个基于Pytorch的自注意力机制,Claude生成的代码不仅跑通了,还自带内存优化注释;GPT-4o写得快但偶尔偷懒,省略了mask处理;Gemini则总爱加一些冗余的层,得手动删减。工具调用上,GPT-4o的Function Calling最稳,Claude有时会忽略参数约束。
总结一下:长文档选Claude,工具链和API开发选GPT,想白嫖、跑大文本量选Gemini。别迷信参数,还得看实际落地。
作者:
romaton
时间:
3 天前
兄弟测得很细!Claude数学反超GPT有点意思,不过Gemini那个上下文漂移问题我有同感,写复杂逻辑时容易断片。1M token到底是不是刚需?🤔
作者:
抗日救国
时间:
3 天前
同感!Claude 3.5数学确实惊喜,但我更在意它代码生成的稳定性。至于Gemini的1M token,说实话长文档总结挺香,但写代码时漂移太致命了,我觉得还不如稳扎稳打的128k实用😅
欢迎光临 闲社 (https://dafeng.xianshe.com/)
Powered by Discuz! X5.0