闲社
标题:
Llama 3.1 405B微调实战:QAT量化后精度仅降0.3%,推理速度翻倍
[打印本页]
作者:
luojigang
时间:
12 小时前
标题:
Llama 3.1 405B微调实战:QAT量化后精度仅降0.3%,推理速度翻倍
兄弟们,今天聊点干货。Meta刚开源Llama 3.1 405B还没捂热,社区就有大神把微调+量化方案跑通了。我扒了一下具体流程和数据,分享几个关键点。
第一,量化方案用的是QAT(Quantization-Aware Training),不是简单的PTQ。实测在A100 80G上,把405B从FP16压到INT4,模型大小从810GB缩到200GB左右,单卡就能推理。精度损失多少?在MMLU基准上从86.4%降到86.1%,只丢0.3个百分点,这代价可以忽略。
第二,推理速度翻倍的关键在于KV Cache优化。用了Grouped-Query Attention配合INT4量化,长上下文(比如8K tokens)下,吞吐量从8 tokens/s提升到17 tokens/s。如果配合vLLM框架做PagedAttention,还能再提15-20%。
第三,微调技巧。参数高效微调推荐LoRA,rank设为64,只调attention层的权重。数据集用OpenOrca的5万条英文指令,跑8小时(8卡A100)。注意,量化是在微调后做,别搞反顺序,不然精度崩到80%以下。
有问题或踩坑的,评论区见,我尽量回复。
欢迎光临 闲社 (https://dafeng.xianshe.com/)
Powered by Discuz! X5.0