刚刷到Meta的官方公告,LLaMA 3.1系列正式开源,最大的看点是那个405B参数的版本。实测跑了下推理,效果确实炸裂,数学、代码、常识问答基本跟GPT-4 Turbo差不多,关键是开源你懂吧,随便魔改。
说重点:
1. 模型权重和代码全放出来了,GitHub上直接拉,Hugging Face也有。405B版本需要8块H100才能跑推理,但Meta同时放出了8B和70B的小模型,单卡就能跑,适合个人折腾。
2. 上下文长度128K,实测处理大文档比Claude 3 Opus还稳,我塞了一本《深度学习》进去,关键问题都能定位到具体段落。
3. 最骚的是Meta同时给了官方微调指南和合成数据生成工具。想搞垂直领域模型的直接拿405B当教师模型,蒸馏出小模型,这套流程官方都给你打包好了。
4. 训练用了16K块H100,烧了大概5亿美元。但开源后你一分钱不花就能用,这波Meta是真舍得。
实操建议:8B版本适合搞RAG,70B版本可以做代码助手,405B版本目前还是得组集群玩。不过模型才刚出,社区优化工具估计这周就会陆续跟上,建议先拉代码跑个demo试试。 |