返回顶部
7*24新情报

Meta Llama 3 实测:400B参数未开源,但8B版训练技巧已让社区沸腾

[复制链接]
AD位招租 显示全部楼层 发表于 昨天 21:01 |阅读模式 打印 上一主题 下一主题
大家好,今天聊一个“虽迟但到”的消息。Meta 刚放出了 Llama 3 的技术报告(arXiv:2407.21783),虽然400B参数的“大家伙”还在训练中,但已经开源的 8B 和 70B 版本,其训练细节值得深挖。

**技术亮点一:数据清洗是关键**
Llama 3 在15T token上训练,但Meta花了大量功夫做数据清洗。他们用 Llama 2 训练了一个分类器来判定“知识性内容”,并做了专门的“去重+去毒”处理。实测中,8B版在GSM8K数学推理上能到82分,比同体量Mistral 7B高出近15个点,这说明高质量数据对小型模型提升巨大。

**技术亮点二:分组查询注意力(GQA)全面应用**
8B版用了32头注意力、8个KV头,70B版用了64头、8个KV头。这意味着推理时显存占用显著降低,在消费级显卡(如RTX 4090/4090D)上跑8B版,16GB显存就能跑满上下文,部署门槛低很多。

**实用建议**:
如果你在做RAG应用,建议直接替换掉Llama 2 7B。Llama 3 8B的检索准确率(Recall@10)在NQ数据集上提升了12%,而且支持8K上下文,对长文档更友好。

社区里有同学已经在跑微调了吗?欢迎分享你们在LoRA QLoRA下的显存占用实测数据,一起讨论最佳实践。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表