设计数据标注平台
问题
设计一个支持 LLM 训练数据标注的平台,包括 SFT 数据标注和偏好标注。
答案
一、标注任务类型
| 任务 | 标注内容 | 用途 |
|---|---|---|
| SFT 标注 | 高质量问答对 | 监督微调 |
| 偏好标注 | 对比两个回答选更好的 | RLHF/DPO |
| 分类标注 | 文本类别 | 分类模型训练 |
| 安全标注 | 内容是否安全/有害 | 安全过滤器 |
二、系统架构
三、核心设计
质量控制
| 策略 | 说明 |
|---|---|
| 多人标注 | 同一任务多人标注,取共识 |
| 金标数据 | 混入已知答案,检测标注质量 |
| 一致性检查 | Cohen's Kappa 协议一致性 |
| 人机协同 | LLM 预标注 + 人工审核修正 |
LLM 辅助标注
- LLM 预标注可提升效率 3~5 倍
- 人工负责修正和边界 case
常见面试问题
Q1: 如何确保偏好标注的质量?
答案:
- 详细的标注指南:定义什么是"更好"的回答
- 多人标注取共识:至少 3 人标注,取多数一致
- 金标测试:定期插入已知正确答案检测标注员
- 淘汰质量低的标注员,奖励高质量标注