跳到主要内容

设计内容审核系统

问题

设计一个 AI 内容审核系统,对 UGC 和 AI 生成内容进行安全审核。

答案

一、审核架构

二、多层审核策略

层级方法延迟精度
规则引擎关键词黑名单<1ms低(易绕过)
ML 分类器BERT 分类<50ms
LLM 审核GPT-4 判断1~3s
人工审核人工判断分钟级最高

三、审核类别

类别示例
暴力暴力威胁、血腥内容
色情成人内容
仇恨言论歧视、种族主义
虚假信息谣言、伪科学
个人攻击辱骂、骚扰
PII 泄露手机号、身份证号

四、关键指标

指标目标
召回率>99%(尽量不遗漏有害内容)
误杀率<1%(减少正常内容被误拦)
审核延迟实时内容 <500ms,异步 <5min

常见面试问题

Q1: 如何平衡审核准确率和误杀率?

答案

  • 分级策略:高风险内容(暴力/色情)用高召回模型,宁可误杀
  • 不确定的内容进人工审核队列
  • 设置申诉机制,让被误杀的创作者可以申诉
  • 持续收集 case 改进模型

相关链接