跳到主要内容

偏见与公平性

问题

AI 模型中的偏见是如何产生的？如何检测和缓解？

答案

一、偏见来源

二、常见偏见类型

类型	描述	示例
性别偏见	关联特定性别与职业/特征	"医生→他，护士→她"
种族偏见	对不同种族有差异化表述	图像生成中的肤色倾向
文化偏见	以特定文化视角为默认	英语/西方中心主义
确认偏见	倾向生成符合预期的答案	迎合用户观点
代表性偏见	少数群体在数据中代表不足	低资源语言效果差

三、公平性度量

指标	定义
人口统计平等性	不同群体获得正面结果的比例相同
机会均等	真正例率在各群体间相同
预测平等	假正率在各群体间相同
反事实公平	改变敏感属性后，预测不变

四、缓解策略

阶段	策略	做法
数据	数据审核	检查训练数据中的偏见分布
数据	数据增强	平衡不同群体的样本数量
训练	对齐训练	RLHF/DPO 中纳入公平性标准
部署	输出审核	自动检测偏见性输出
评估	偏见基准测试	BBQ、WinoBias 等评估集

常见面试问题

Q1: 如何检测 LLM 中的偏见？

答案：

基准测试：使用 BBQ（Bias Benchmark for QA）、WinoBias 等数据集
反事实测试：将输入中的敏感属性（性别、种族）替换，对比输出差异
红队测试：人工尝试诱导偏见性输出
统计分析：对大量输出进行偏见词频和情感分析

Q2: 偏见能完全消除吗？

答案：完全消除偏见在理论上不可能，因为：

训练数据反映现实世界中的不平等
不同公平性指标之间存在数学互斥（Impossibility Theorem）
目标是减少有害偏见并保持透明性，而非追求绝对中性

相关链接

问题
答案
常见面试问题
- Q1: 如何检测 LLM 中的偏见？
- Q2: 偏见能完全消除吗？
相关链接