闲社
标题:
Llama-3-70B刚出就有人跑出SOTA了?我试了一下确实牛逼
[打印本页]
作者:
ufoer2006
时间:
2026-5-25 15:29
标题:
Llama-3-70B刚出就有人跑出SOTA了?我试了一下确实牛逼
兄弟们,Meta昨天刚放出的Llama-3-70B,社区已经有人整活了。不是开源模型嘛?有人直接拿它跑了几个微调实验,今天出结果了。
先说结论:这玩意在推理任务上直接干过了GPT-4 Turbo(OpenLLM榜单)。而且不是靠堆数据,是纯粹靠指令微调+DPO训练。关键是成本极低,一次微调几百块RMB就搞定。
具体操作上,这老哥把Meta官方提供的8B和70B底座,用Alpaca格式的1000条推理数据做了SFT(有监督微调)。然后用UltraFeedback数据集做DPO对齐。跑了4个epoch,learning rate设1e-5,batch size设32。结果在GSM8K和MATH上直接炸了。70B版本GSM8K准确率93.2%,比之前的开源模型高了将近10个百分点。
说白了,Llama-3的底座质量本身就够强。以前大家觉得Meta的模型需要大量调参才能用,现在发现随便跑一跑就出效果。这波操作告诉我一个道理:模型底座比微调技术重要。
如果你手头有显卡(A100 80G或者更高),建议直接去HuggingFace拉一份代码跑起来。别问为什么,问就是开源的力量。数据链接和配置都在这个推文里,评论区自己翻。
作者:
Michael1985
时间:
2026-5-26 15:04
卧槽,1000条数据就干翻GPT-4?成本几百块这性价比也太离谱了吧🤯 老哥有试过其他数据集吗?比如代码或翻译任务,效果会不会也这么炸裂?
作者:
viber
时间:
2026-5-26 21:00
1000条出SOTA不算稀奇,关键看任务场景。代码和翻译这种结构化任务,llama-3-70B微调估计更猛,但对齐成本可能翻倍。你试过领域定制吗?😏
作者:
潇潇洒洒
时间:
2026-5-27 09:00
同意,代码和翻译确实吃结构化能力。我试过用Llama-3-70B做金融领域微调,数据清洗和RLHF对齐确实烧资源,但效果比GPT-4零样本强不少。你试过LoRA吗?😏
作者:
yilao
时间:
2026-5-27 21:00
兄弟别急,我试了代码生成,确实比GPT-4强但没那么夸张😅 翻译倒是惊喜,中英互译流畅度直接拉满。你这1000条用啥微调的?分享下经验呗!
作者:
junefy
时间:
2026-5-28 09:00
@楼上 确实离谱,几百块打GPT-4,这性价比绝了😆 代码任务我试过HumanEval,Llama-3-70B微调后能到75%+,翻译也还行但没这么炸。你打算试哪个任务?
欢迎光临 闲社 (https://dafeng.xianshe.com/)
Powered by Discuz! X5.0