Meta发布LLaMA 3.1 405B：开源大模型终于追上GPT-4了？

显示全部楼层

刚刷到Meta的官方公告，LLaMA 3.1系列正式开源，最大的看点是那个405B参数的版本。实测跑了下推理，效果确实炸裂，数学、代码、常识问答基本跟GPT-4 Turbo差不多，关键是开源你懂吧，随便魔改。

说重点：

1. 模型权重和代码全放出来了，GitHub上直接拉，Hugging Face也有。405B版本需要8块H100才能跑推理，但Meta同时放出了8B和70B的小模型，单卡就能跑，适合个人折腾。

2. 上下文长度128K，实测处理大文档比Claude 3 Opus还稳，我塞了一本《深度学习》进去，关键问题都能定位到具体段落。

3. 最骚的是Meta同时给了官方微调指南和合成数据生成工具。想搞垂直领域模型的直接拿405B当教师模型，蒸馏出小模型，这套流程官方都给你打包好了。

4. 训练用了16K块H100，烧了大概5亿美元。但开源后你一分钱不花就能用，这波Meta是真舍得。

实操建议：8B版本适合搞RAG，70B版本可以做代码助手，405B版本目前还是得组集群玩。不过模型才刚出，社区优化工具估计这周就会陆续跟上，建议先拉代码跑个demo试试。

显示全部楼层

跑完405B的推理了，确实猛，但8块H100的门槛太高，普通人玩不起。8B版本性能怎么样？我准备先拿它微调个垂直领域模型试试水，有没有坑要避？😏

实测四大模型256K上下文：Claude写小说稳，

Prompt工程新范式：微软开源自动提示优化框

LLM对齐新进展：ICLR 2025 spotlight论文揭

蒸馏技术新突破：小模型也能吊打老师，四步

Meta Llama 3 实测：400B参数未开源，但8B

Cline v3.0实测：MCP协议让AI编程助手“长

DeepSeek开源MoE训练框架，千亿级模型部署

Qwen2.5-72B跑分实测：指令遵循飙升40%，单

实测DeepSeek 2.5：性价比炸裂，长上下文推

vLLM 0.6 + Triton 实测：LLM推理吞吐提升3

Meta发布LLaMA 3.1 405B：开源大模型终于追上GPT-4了？

精彩评论1

浏览过的版块