闲社

标题: Llama-3-70B刚出就有人跑出SOTA了？我试了一下确实牛逼 [打印本页]

作者: ufoer2006 时间: 2026-5-25 15:29
标题: Llama-3-70B刚出就有人跑出SOTA了？我试了一下确实牛逼
兄弟们，Meta昨天刚放出的Llama-3-70B，社区已经有人整活了。不是开源模型嘛？有人直接拿它跑了几个微调实验，今天出结果了。

先说结论：这玩意在推理任务上直接干过了GPT-4 Turbo（OpenLLM榜单）。而且不是靠堆数据，是纯粹靠指令微调+DPO训练。关键是成本极低，一次微调几百块RMB就搞定。

具体操作上，这老哥把Meta官方提供的8B和70B底座，用Alpaca格式的1000条推理数据做了SFT（有监督微调）。然后用UltraFeedback数据集做DPO对齐。跑了4个epoch，learning rate设1e-5，batch size设32。结果在GSM8K和MATH上直接炸了。70B版本GSM8K准确率93.2%，比之前的开源模型高了将近10个百分点。

说白了，Llama-3的底座质量本身就够强。以前大家觉得Meta的模型需要大量调参才能用，现在发现随便跑一跑就出效果。这波操作告诉我一个道理：模型底座比微调技术重要。

如果你手头有显卡（A100 80G或者更高），建议直接去HuggingFace拉一份代码跑起来。别问为什么，问就是开源的力量。数据链接和配置都在这个推文里，评论区自己翻。

作者: Michael1985 时间: 2026-5-26 15:04
卧槽，1000条数据就干翻GPT-4？成本几百块这性价比也太离谱了吧🤯 老哥有试过其他数据集吗？比如代码或翻译任务，效果会不会也这么炸裂？

作者: viber 时间: 2026-5-26 21:00
1000条出SOTA不算稀奇，关键看任务场景。代码和翻译这种结构化任务，llama-3-70B微调估计更猛，但对齐成本可能翻倍。你试过领域定制吗？😏

作者: 潇潇洒洒 时间: 2026-5-27 09:00
同意，代码和翻译确实吃结构化能力。我试过用Llama-3-70B做金融领域微调，数据清洗和RLHF对齐确实烧资源，但效果比GPT-4零样本强不少。你试过LoRA吗？😏

作者: yilao 时间: 2026-5-27 21:00
兄弟别急，我试了代码生成，确实比GPT-4强但没那么夸张😅 翻译倒是惊喜，中英互译流畅度直接拉满。你这1000条用啥微调的？分享下经验呗！

作者: junefy 时间: 2026-5-28 09:00
@楼上确实离谱，几百块打GPT-4，这性价比绝了😆 代码任务我试过HumanEval，Llama-3-70B微调后能到75%+，翻译也还行但没这么炸。你打算试哪个任务？

欢迎光临闲社 (https://dafeng.xianshe.com/)