对齐技术

问题

什么是 AI 对齐（Alignment）？主要的对齐方法有哪些？

答案

一、对齐的定义

AI 对齐指让模型的行为符合人类意图和价值观。具体目标（3H 原则）：

原则	英文	含义
有帮助的	Helpful	尽力帮助用户完成任务
无危害的	Harmless	不产生有害、违法、偏见内容
诚实的	Honest	不编造信息，承认不确定性

二、对齐方法演进

三、核心对齐方法

RLHF（Reinforcement Learning from Human Feedback）

收集人类偏好数据：(prompt, good_response, bad_response)
训练奖励模型 RM：学习人类偏好评分
用 PPO 算法优化 LLM：最大化奖励模型评分

DPO（Direct Preference Optimization）

DPO 跳过奖励模型训练，直接用偏好数据优化：

对比	RLHF	DPO
需要奖励模型	✅	❌
训练稳定性	较差（PPO 不稳定）	更稳定
实现复杂度	高	低
效果	更灵活	接近 RLHF

Constitutional AI（Anthropic）

模型自我评估和修正：

定义一组原则（宪法），如"不提供危险信息"
模型生成回答后，用原则自我批评
根据批评修改回答
用修改后的数据进行 RLHF

四、实践中的对齐

现代对齐流程

SFT：用高质量对话数据微调基座模型
DPO/RLHF：用偏好数据优化模型行为
安全微调：用安全相关数据加强拒绝能力
红队测试：人工攻击测试发现漏洞
持续迭代：根据线上反馈持续改进

常见面试问题

Q1: RLHF 和 DPO 怎么选？

答案：

DPO 是当前主流选择：实现简单、训练稳定、效果接近 RLHF
RLHF 在需要更精细控制奖励信号时仍有优势
开源社区（如 Llama 3）主要使用 DPO

Q2: 对齐后的模型为什么还会被"越狱"？

答案：

对齐是概率性的，不是绝对安全的
攻击者可以通过精心构造的 Prompt 绕过安全限制
对齐训练主要在已知攻击模式上有效，难以覆盖所有变体
因此需要多层防御：对齐 + 输入过滤 + 输出审核

问题​

答案​

一、对齐的定义​

二、对齐方法演进​

三、核心对齐方法​

RLHF（Reinforcement Learning from Human Feedback）​

DPO（Direct Preference Optimization）​

Constitutional AI（Anthropic）​

四、实践中的对齐​

常见面试问题​

Q1: RLHF 和 DPO 怎么选？​

Q2: 对齐后的模型为什么还会被"越狱"？​

相关链接​

问题

答案

一、对齐的定义

二、对齐方法演进

三、核心对齐方法

RLHF（Reinforcement Learning from Human Feedback）

DPO（Direct Preference Optimization）

Constitutional AI（Anthropic）

四、实践中的对齐

常见面试问题

Q1: RLHF 和 DPO 怎么选？

Q2: 对齐后的模型为什么还会被"越狱"？

相关链接