跳到主要内容

设计内容审核系统

问题

设计一个 AI 内容审核系统，对 UGC 和 AI 生成内容进行安全审核。

答案

一、审核架构

二、多层审核策略

层级	方法	延迟	精度
规则引擎	关键词黑名单	`<1ms`	低（易绕过）
ML 分类器	BERT 分类	`<50ms`	中
LLM 审核	GPT-4 判断	1~3s	高
人工审核	人工判断	分钟级	最高

三、审核类别

类别	示例
暴力	暴力威胁、血腥内容
色情	成人内容
仇恨言论	歧视、种族主义
虚假信息	谣言、伪科学
个人攻击	辱骂、骚扰
PII 泄露	手机号、身份证号

四、关键指标

指标	目标
召回率	>99%（尽量不遗漏有害内容）
误杀率	`<1%`（减少正常内容被误拦）
审核延迟	实时内容 `<500ms`，异步 `<5min`

常见面试问题

Q1: 如何平衡审核准确率和误杀率？

答案：

分级策略：高风险内容（暴力/色情）用高召回模型，宁可误杀
不确定的内容进人工审核队列
设置申诉机制，让被误杀的创作者可以申诉
持续收集 case 改进模型

相关链接

问题
答案
常见面试问题
- Q1: 如何平衡审核准确率和误杀率？
相关链接