偏见与公平性
问题
AI 模型中的偏见是如何产生的?如何检测和缓解?
答案
一、偏见来源
二、常见偏见类型
| 类型 | 描述 | 示例 |
|---|---|---|
| 性别偏见 | 关联特定性别与职业/特征 | "医生→他,护士→她" |
| 种族偏见 | 对不同种族有差异化表述 | 图像生成中的肤色倾向 |
| 文化偏见 | 以特定文化视角为默认 | 英语/西方中心主义 |
| 确认偏见 | 倾向生成符合预期的答案 | 迎合用户观点 |
| 代表性偏见 | 少数群体在数据中代表不足 | 低资源语言效果差 |
三、公平性度量
| 指标 | 定义 |
|---|---|
| 人口统计平等性 | 不同群体获得正面结果的比例相同 |
| 机会均等 | 真正例率在各群体间相同 |
| 预测平等 | 假正率在各群体间相同 |
| 反事实公平 | 改变敏感属性后,预测不变 |
四、缓解策略
| 阶段 | 策略 | 做法 |
|---|---|---|
| 数据 | 数据审核 | 检查训练数据中的偏见分布 |
| 数据 | 数据增强 | 平衡不同群体的样本数量 |
| 训练 | 对齐训练 | RLHF/DPO 中纳入公平性标准 |
| 部署 | 输出审核 | 自动检测偏见性输出 |
| 评估 | 偏见基准测试 | BBQ、WinoBias 等评估集 |
常见面试问题
Q1: 如何检测 LLM 中的偏见?
答案:
- 基准测试:使用 BBQ(Bias Benchmark for QA)、WinoBias 等数据集
- 反事实测试:将输入中的敏感属性(性别、种族)替换,对比输出差异
- 红队测试:人工尝试诱导偏见性输出
- 统计分析:对大量输出进行偏见词频和情感分析
Q2: 偏见能完全消除吗?
答案: 完全消除偏见在理论上不可能,因为:
- 训练数据反映现实世界中的不平等
- 不同公平性指标之间存在数学互斥(Impossibility Theorem)
- 目标是减少有害偏见并保持透明性,而非追求绝对中性