跳到主要内容

负责任 AI

问题

什么是负责任 AI?如何对 AI 系统进行安全评估和红队测试?

答案

一、负责任 AI 原则

原则描述
安全性不生成有害内容,对攻击有防御
公平性不歧视特定群体
透明性用户知道在与 AI 交互,了解 AI 的局限
可解释性能解释 AI 的决策依据
隐私保护用户数据和个人信息
问责制有明确的责任主体和反馈渠道

二、红队测试(Red Teaming)

红队测试是通过模拟攻击来发现 AI 系统的安全漏洞:

常见攻击类别

类别测试目标
Prompt 注入尝试覆盖系统指令
越狱绕过安全限制获取禁止内容
信息提取提取系统 Prompt 或训练数据
偏见诱导诱导产生歧视性输出
幻觉利用诱导生成虚假权威信息
工具滥用诱导 Agent 执行危险操作

三、安全评估

评估维度评估方法工具
有害内容自动分类 + 人工审核OpenAI Moderation
幻觉率RAG 事实核查RAGAS、TruLens
偏见程度基准测试BBQ、WinoBias
注入防御红队攻击模拟garak、Rebuff
隐私安全PII 泄露检测Presidio

四、AI 应用安全清单

上线前安全清单
  • System Prompt 不包含敏感密钥
  • 输入有 Prompt 注入检测
  • 输出有有害内容过滤
  • 输出有 PII 泄露检测
  • 模型调用有速率限制
  • 工具调用有权限控制和确认机制
  • 有日志记录和审计
  • 有用户反馈/举报机制
  • 有应急响应和快速关闭能力

常见面试问题

Q1: 如何对 AI 产品进行安全评估?

答案

  1. 自动化评估:用评估数据集测试幻觉率、有害内容率
  2. 红队测试:组织专人进行攻击测试
  3. 用户反馈:建立举报机制收集线上问题
  4. 持续监控:日志审计 + 采样人工审核

Q2: AI 应用中出现安全事故如何应急?

答案

  1. 止血:启用降级策略(如关闭问题功能、切换到预设回复)
  2. 定位:分析日志确定问题触发条件
  3. 修复:更新安全规则/Prompt/过滤器
  4. 复盘:总结原因,补充到红队测试用例中

相关链接