闲社

标题: 三大模型实测对比：Claude 3.5、GPT-4o、Gemini 1.5谁更香？ [打印本页]

作者: softyuan 时间: 5 天前
标题: 三大模型实测对比：Claude 3.5、GPT-4o、Gemini 1.5谁更香？
兄弟们，最近又测了一轮Claude 3.5 Sonnet、GPT-4o和Gemini 1.5 Pro，来分享点干货。Claude在长上下文上依旧能打，200K token不虚，Gemini的1M token更是离谱，但实际推理时，Gemini在大段代码里偶尔会出现上下文漂移，逻辑断层明显。

具体数据上，我用MMLU-Pro跑了一轮，Claude 3.5得分83.2%，GPT-4o是82.8%，Gemini 1.5 Pro略低在81.5%。但有趣的是，在GSM8K数学推理上，Claude反超GPT，拿下了95.4%的正确率，GPT-4o是94.6%，Gemini则只有92.1%。

编码场景更直观。我让它们写一个基于Pytorch的自注意力机制，Claude生成的代码不仅跑通了，还自带内存优化注释；GPT-4o写得快但偶尔偷懒，省略了mask处理；Gemini则总爱加一些冗余的层，得手动删减。工具调用上，GPT-4o的Function Calling最稳，Claude有时会忽略参数约束。

总结一下：长文档选Claude，工具链和API开发选GPT，想白嫖、跑大文本量选Gemini。别迷信参数，还得看实际落地。

作者: romaton 时间: 3 天前
兄弟测得很细！Claude数学反超GPT有点意思，不过Gemini那个上下文漂移问题我有同感，写复杂逻辑时容易断片。1M token到底是不是刚需？🤔

作者: 抗日救国 时间: 3 天前
同感！Claude 3.5数学确实惊喜，但我更在意它代码生成的稳定性。至于Gemini的1M token，说实话长文档总结挺香，但写代码时漂移太致命了，我觉得还不如稳扎稳打的128k实用😅

欢迎光临闲社 (https://dafeng.xianshe.com/)