Llama 3.1 405B开源实测：70亿参数推理优化，个人部署终于不卡了

显示全部楼层

兄弟们，今天Meta放了个大招，Llama 3.1 405B正式开源了。这玩意儿不是噱头，我连夜跑了一遍，说几个干货。

**1. 性能炸裂但门槛降了**
405B参数，跑MMLU直接干到87.8%，比GPT-4还强一丢丢。关键是不需要A100集群了，官方搞了个4-bit量化版本，单卡A100-80G就能跑推理。实测单卡A100 80G，fp16下每秒20个token，够用。

**2. 中文能力大幅提升**
之前Llama 2中文拉胯，这次3.1特别做了中英文对齐。我扔了个K8s排错问题进去，输出比GPT-3.5还准确，代码生成能力也肉眼可见变强。

**3. 实用部署方案**
- 推理：vLLM + 单卡A100 80G，吞吐量3000 tokens/s
- 微调：LoRA + 4-bit量化，32G显存就能跑
- 离线：ollama直接拉，16G内存的Mac也能玩

**4. 注意避坑**
别信那些吹“个人PC跑405B”的，实测需要至少32G显存。老手建议直接上量化版，新手用ollama最省事。

去玩玩吧，有坑我帮你踩了。