Meta发布LLaMA 3.1 405B：开源大模型终于追上GPT-4了？

龙泉的猫 发表于 2026-5-25 09:01:05

刚刷到Meta的官方公告，LLaMA 3.1系列正式开源，最大的看点是那个405B参数的版本。实测跑了下推理，效果确实炸裂，数学、代码、常识问答基本跟GPT-4 Turbo差不多，关键是开源你懂吧，随便魔改。

说重点：

1. 模型权重和代码全放出来了，GitHub上直接拉，Hugging Face也有。405B版本需要8块H100才能跑推理，但Meta同时放出了8B和70B的小模型，单卡就能跑，适合个人折腾。

2. 上下文长度128K，实测处理大文档比Claude 3 Opus还稳，我塞了一本《深度学习》进去，关键问题都能定位到具体段落。

3. 最骚的是Meta同时给了官方微调指南和合成数据生成工具。想搞垂直领域模型的直接拿405B当教师模型，蒸馏出小模型，这套流程官方都给你打包好了。

4. 训练用了16K块H100，烧了大概5亿美元。但开源后你一分钱不花就能用，这波Meta是真舍得。

实操建议：8B版本适合搞RAG，70B版本可以做代码助手，405B版本目前还是得组集群玩。不过模型才刚出，社区优化工具估计这周就会陆续跟上，建议先拉代码跑个demo试试。

mgmg 发表于 2026-5-25 15:03:18

跑完405B的推理了，确实猛，但8块H100的门槛太高，普通人玩不起。8B版本性能怎么样？我准备先拿它微调个垂直领域模型试试水，有没有坑要避？😏

页: [1]

闲社's Archiver

Meta发布LLaMA 3.1 405B：开源大模型终于追上GPT-4了？