对齐技术
问题
什么是 AI 对齐(Alignment)?主要的对齐方法有哪些?
答案
一、对齐的定义
AI 对齐指让模型的行为符合人类意图和价值观。具体目标(3H 原则):
| 原则 | 英文 | 含义 |
|---|---|---|
| 有帮助的 | Helpful | 尽力帮助用户完成任务 |
| 无危害的 | Harmless | 不产生有害、违法、偏见内容 |
| 诚实的 | Honest | 不编造信息,承认不确定性 |
二、对齐方法演进
三、核心对齐方法
RLHF(Reinforcement Learning from Human Feedback)
1. 收集人类偏好数据:(prompt, good_response, bad_response)
2. 训练奖励模型 RM:学习人类偏好评分
3. 用 PPO 算法优化 LLM:最大化奖励模型评分
DPO(Direct Preference Optimization)
DPO 跳过奖励模型训练,直接用偏好数据优化:
| 对比 | RLHF | DPO |
|---|---|---|
| 需要奖励模型 | ✅ | ❌ |
| 训练稳定性 | 较差(PPO 不稳定) | 更稳定 |
| 实现复杂度 | 高 | 低 |
| 效果 | 更灵活 | 接近 RLHF |
Constitutional AI(Anthropic)
模型自我评估和修正:
- 定义一组原则(宪法),如"不提供危险信息"
- 模型生成回答后,用原则自我批评
- 根据批评修改回答
- 用修改后的数据进行 RLHF
四、实践中的对齐
现代对齐流程
- SFT:用高质量对话数据微调基座模型
- DPO/RLHF:用偏好数据优化模型行为
- 安全微调:用安全相关数据加强拒绝能力
- 红队测试:人工攻击测试发现漏洞
- 持续迭代:根据线上反馈持续改进
常见面试问题
Q1: RLHF 和 DPO 怎么选?
答案:
- DPO 是当前主流选择:实现简单、训练稳定、效果接近 RLHF
- RLHF 在需要更精细控制奖励信号时仍有优势
- 开源社区(如 Llama 3)主要使用 DPO
Q2: 对齐后的模型为什么还会被"越狱"?
答案:
- 对齐是概率性的,不是绝对安全的
- 攻击者可以通过精心构造的 Prompt 绕过安全限制
- 对齐训练主要在已知攻击模式上有效,难以覆盖所有变体
- 因此需要多层防御:对齐 + 输入过滤 + 输出审核