深度研报 · AI 安全治理 · 2026.03

Anthropic 负责任扩展政策 v3.0
AI 安全治理的新标杆

从 v2.0 到 v3.0,Anthropic 重新定义了 AI 公司的安全承诺——双重缓解框架、ASL-5 首次定义、季度风险报告与外部审查。这是迄今为止最全面的 AI 安全扩展政策。

v3.0
政策版本
ASL-5
首次定义最高级别
季度
风险报告频率
6
信源
核心论断:Anthropic RSP v3.0 不只是一份安全政策文件,而是 AI 行业第一个将"安全承诺"系统化为可执行、可审计、可追溯的治理框架。它将倒逼竞争对手提升安全标准,也为监管机构提供了可参考的行业自律模板。

2026 年 3 月,Anthropic 发布了负责任扩展政策(Responsible Scaling Policy, RSP)v3.0 版本,距 v2.0 发布约一年。这次更新并非渐进式修补,而是对整个安全治理框架的全面重构——引入双重缓解(Dual Mitigations)框架、首次定义 ASL-5 级别、建立季度风险报告制度,并发布配套的 Frontier Safety Roadmap。[1]

RSP 的核心理念始终未变:AI 能力的增长速度不应超过安全保障的增长速度。如果安全措施跟不上模型能力,就应该暂停扩展。v3.0 将这一理念落实为更具体、更可操作的制度设计。[1]

§1

RSP v3.0 概览:从原则到制度

一年时间,从 v2.0 到 v3.0 的全面重构

RSP 最初于 2023 年 9 月发布 v1.0,是 Anthropic 对"如何安全地扩展 AI 能力"这一问题的系统性回答。v2.0(2025 年初)增加了更详细的 ASL 级别定义和评估流程。v3.0 则在此基础上实现了三个层面的升级。[1]

v1.0
2023.09 初版发布
v2.0
2025 ASL 细化
v3.0
2026.03 全面重构
3层
升级维度
🛡 制度层

季度风险报告 + 外部审查委员会 + 公开透明度承诺。从"我们说我们安全"到"让外部专家验证我们是否安全"。[1]

🔬 技术层

双重缓解框架(安全性缓解 + 安全保障缓解并行)。任何部署决策必须同时满足两类缓解要求。[1]

🗺 路线图层

Frontier Safety Roadmap 明确未来 2-3 年的安全研究优先级和里程碑。[2]

§2

核心变化:双重缓解与模糊地带

v3.0 最重要的概念创新

双重缓解框架(Dual Mitigations)是 v3.0 最核心的概念创新。此前版本中,安全措施被笼统地归为一类。v3.0 将其拆分为两个独立维度,每个维度都必须独立满足要求:[1]

🔒 Safety Mitigations(安全性缓解)

防止模型被用于造成直接伤害。例如:拒绝生成危险内容、限制敏感能力的使用、输出过滤机制。重点是"模型不做坏事"[1]

  • 输入/输出安全过滤
  • 使用政策执行
  • 危险能力限制
  • 滥用检测与响应
🏗 Security Mitigations(安全保障缓解)

防止模型权重和关键能力被窃取或泄露。例如:访问控制、加密、安全审计、供应链安全。重点是"模型不被偷走"[1]

  • 模型权重保护
  • 基础设施安全
  • 员工访问控制
  • 供应链审计

v3.0 还首次直面了一个在实践中反复出现的难题——"模糊地带"(Zone of Ambiguity):当评估结果处于"明确安全"和"明确危险"之间时,如何决策?[3]

"模糊地带是 AI 安全治理中最困难的区域。我们不能因为评估不确定就停止一切发展,也不能因为没有确凿证据就忽视潜在风险。v3.0 的回答是:建立结构化的决策流程,而非依赖直觉判断。" —— Anthropic RSP v3.0[1]
关键创新:v3.0 要求在模糊地带中采用"分级响应"——不确定性越高,缓解措施越严格,同时投入更多资源进行评估以缩小不确定性范围。这比简单的"通过/不通过"二元决策更具操作性。[1]

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录