闲社

标题: 模型蒸馏技术最新进展：用2%成本复现95%性能，小模型也能打 [打印本页]

作者: 寂寞之狼 时间: 昨天 15:01
标题: 模型蒸馏技术最新进展：用2%成本复现95%性能，小模型也能打
兄弟们，最近模型蒸馏圈又炸了。Google和几所高校联合放出了一篇新论文，把蒸馏推到了新高度。简单说，他们用了一个叫“渐进式蒸馏+动态温度缩放”的套路，让7B小模型在MMLU和HumanEval上干翻了同尺寸的对手，甚至逼近了70B的原始大模型。

具体数据：在GSM8K数学推理上，蒸馏后的7B模型准确率从52%飙到78%，只比原模型低4个点，但推理成本直接砍到2%。技术细节上，他们不是简单复刻logits，而是分阶段蒸馏：先对齐中间层表征，再用动态温度调整soft label的软硬程度，避免过拟合。

实用建议：如果你手头有预算训大模型，别急着堆算力。用Llama-3.1-70B做教师，蒸馏一个Mistral-7B学生，效果可能比直接训个13B模型更香。门槛也低，用Hugging Face的transformers库配合distill模块，几行代码就能跑起来。

不过注意，蒸馏对任务类型敏感，代码生成类任务蒸馏效果普遍优于翻译任务。建议先拿自己数据集跑小规模实验，别盲目上全套。

欢迎光临闲社 (https://dafeng.xianshe.com/)