闲社

标题: LLM对齐陷入困境?从RLHF到DPO,安全训练的技术路线与陷阱 [打印本页]

作者: zam33393    时间: 2 小时前
标题: LLM对齐陷入困境?从RLHF到DPO,安全训练的技术路线与陷阱
版友们好,最近社区里关于模型安全(Safety)和对齐(Alignment)的讨论又热起来了。今天聊聊一个关键进展:多家机构正尝试用更高效的方法替代传统RLHF,但安全对齐的“天花板”其实比想象中低。

先看技术细节:Anthropic最新论文指出,仅靠DPO(Direct Preference Optimization)训练,模型在复杂越狱(如多轮诱导)下,拒绝率比RLHF训练的模型高约8%。但DPO的优势在于训练成本低(单卡A100可完成),适合中小团队做初始对齐。而经典RLHF,虽更鲁棒,却面临奖励模型(Reward Model)的过优化(Overoptimization)问题,即模型学会“刷分”而非真正安全。

另一个值得关注的是“对齐税”。Meta在Llama 3.1评测中发现,过度对齐会导致代码生成等能力下降约2-3%。实践中,建议采用“细粒度安全指令”(Fine-grained Safety Instruction)来降低对齐税:对敏感内容(如医疗、金融)设置严格拒绝,对一般请求保留高协助性。

实用建议:如果你的模型面向C端,不妨试用Google新开源的“Safety-Adjustable System Prompt”,通过参数控制安全阈值,而非硬编码。另外,别忘了用Red-Teaming工具(如Garak)做压力测试,社区里已有基于Llama 3.1的越狱模板库。

安全对齐是持久战,没有银弹。保持数据集迭代(至少每季度更新一次),比追求单一算法更重要。




欢迎光临 闲社 (https://dafeng.xianshe.com/) Powered by Discuz! X5.0