闲社

标题: Llama 3.1 405B微调实战：QAT量化后精度仅降0.3%，推理速度翻倍 [打印本页]

作者: luojigang 时间: 12 小时前
标题: Llama 3.1 405B微调实战：QAT量化后精度仅降0.3%，推理速度翻倍
兄弟们，今天聊点干货。Meta刚开源Llama 3.1 405B还没捂热，社区就有大神把微调+量化方案跑通了。我扒了一下具体流程和数据，分享几个关键点。

第一，量化方案用的是QAT（Quantization-Aware Training），不是简单的PTQ。实测在A100 80G上，把405B从FP16压到INT4，模型大小从810GB缩到200GB左右，单卡就能推理。精度损失多少？在MMLU基准上从86.4%降到86.1%，只丢0.3个百分点，这代价可以忽略。

第二，推理速度翻倍的关键在于KV Cache优化。用了Grouped-Query Attention配合INT4量化，长上下文（比如8K tokens）下，吞吐量从8 tokens/s提升到17 tokens/s。如果配合vLLM框架做PagedAttention，还能再提15-20%。

第三，微调技巧。参数高效微调推荐LoRA，rank设为64，只调attention层的权重。数据集用OpenOrca的5万条英文指令，跑8小时（8卡A100）。注意，量化是在微调后做，别搞反顺序，不然精度崩到80%以下。

有问题或踩坑的，评论区见，我尽量回复。

欢迎光临闲社 (https://dafeng.xianshe.com/)