闲社

标题: LLM对齐陷入困境？从RLHF到DPO，安全训练的技术路线与陷阱 [打印本页]

作者: zam33393 时间: 2 小时前
标题: LLM对齐陷入困境？从RLHF到DPO，安全训练的技术路线与陷阱
版友们好，最近社区里关于模型安全（Safety）和对齐（Alignment）的讨论又热起来了。今天聊聊一个关键进展：多家机构正尝试用更高效的方法替代传统RLHF，但安全对齐的“天花板”其实比想象中低。

先看技术细节：Anthropic最新论文指出，仅靠DPO（Direct Preference Optimization）训练，模型在复杂越狱（如多轮诱导）下，拒绝率比RLHF训练的模型高约8%。但DPO的优势在于训练成本低（单卡A100可完成），适合中小团队做初始对齐。而经典RLHF，虽更鲁棒，却面临奖励模型（Reward Model）的过优化（Overoptimization）问题，即模型学会“刷分”而非真正安全。

另一个值得关注的是“对齐税”。Meta在Llama 3.1评测中发现，过度对齐会导致代码生成等能力下降约2-3%。实践中，建议采用“细粒度安全指令”（Fine-grained Safety Instruction）来降低对齐税：对敏感内容（如医疗、金融）设置严格拒绝，对一般请求保留高协助性。

实用建议：如果你的模型面向C端，不妨试用Google新开源的“Safety-Adjustable System Prompt”，通过参数控制安全阈值，而非硬编码。另外，别忘了用Red-Teaming工具（如Garak）做压力测试，社区里已有基于Llama 3.1的越狱模板库。

安全对齐是持久战，没有银弹。保持数据集迭代（至少每季度更新一次），比追求单一算法更重要。

欢迎光临闲社 (https://dafeng.xianshe.com/)