Anthropic 负责任扩展政策 v3.0：AI 安全治理的新标杆

核心论断：Anthropic RSP v3.0 不只是一份安全政策文件，而是 AI 行业第一个将"安全承诺"系统化为可执行、可审计、可追溯的治理框架。它将倒逼竞争对手提升安全标准，也为监管机构提供了可参考的行业自律模板。

2026 年 3 月，Anthropic 发布了负责任扩展政策（Responsible Scaling Policy, RSP）v3.0 版本，距 v2.0 发布约一年。这次更新并非渐进式修补，而是对整个安全治理框架的全面重构——引入双重缓解（Dual Mitigations）框架、首次定义 ASL-5 级别、建立季度风险报告制度，并发布配套的 Frontier Safety Roadmap。^[1]

RSP 的核心理念始终未变：AI 能力的增长速度不应超过安全保障的增长速度。如果安全措施跟不上模型能力，就应该暂停扩展。v3.0 将这一理念落实为更具体、更可操作的制度设计。^[1]

§1

RSP v3.0 概览：从原则到制度

一年时间，从 v2.0 到 v3.0 的全面重构

RSP 最初于 2023 年 9 月发布 v1.0，是 Anthropic 对"如何安全地扩展 AI 能力"这一问题的系统性回答。v2.0（2025 年初）增加了更详细的 ASL 级别定义和评估流程。v3.0 则在此基础上实现了三个层面的升级。^[1]

v1.0

2023.09 初版发布

v2.0

2025 ASL 细化

v3.0

2026.03 全面重构

3层

升级维度

🛡 制度层

季度风险报告 + 外部审查委员会 + 公开透明度承诺。从"我们说我们安全"到"让外部专家验证我们是否安全"。^[1]

🔬 技术层

双重缓解框架（安全性缓解 + 安全保障缓解并行）。任何部署决策必须同时满足两类缓解要求。^[1]

🗺 路线图层

Frontier Safety Roadmap 明确未来 2-3 年的安全研究优先级和里程碑。^[2]

§2

核心变化：双重缓解与模糊地带

v3.0 最重要的概念创新

双重缓解框架（Dual Mitigations）是 v3.0 最核心的概念创新。此前版本中，安全措施被笼统地归为一类。v3.0 将其拆分为两个独立维度，每个维度都必须独立满足要求：^[1]

🔒 Safety Mitigations（安全性缓解）

防止模型被用于造成直接伤害。例如：拒绝生成危险内容、限制敏感能力的使用、输出过滤机制。重点是"模型不做坏事"。^[1]

输入/输出安全过滤
使用政策执行
危险能力限制
滥用检测与响应

🏗 Security Mitigations（安全保障缓解）

防止模型权重和关键能力被窃取或泄露。例如：访问控制、加密、安全审计、供应链安全。重点是"模型不被偷走"。^[1]

模型权重保护
基础设施安全
员工访问控制
供应链审计

v3.0 还首次直面了一个在实践中反复出现的难题——"模糊地带"（Zone of Ambiguity）：当评估结果处于"明确安全"和"明确危险"之间时，如何决策？^[3]

"模糊地带是 AI 安全治理中最困难的区域。我们不能因为评估不确定就停止一切发展，也不能因为没有确凿证据就忽视潜在风险。v3.0 的回答是：建立结构化的决策流程，而非依赖直觉判断。" —— Anthropic RSP v3.0^[1]

关键创新：v3.0 要求在模糊地带中采用"分级响应"——不确定性越高，缓解措施越严格，同时投入更多资源进行评估以缩小不确定性范围。这比简单的"通过/不通过"二元决策更具操作性。^[1]

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录

或

Anthropic 负责任扩展政策 v3.0AI 安全治理的新标杆

RSP v3.0 概览：从原则到制度

核心变化：双重缓解与模糊地带

登录后阅读完整报告

Anthropic 负责任扩展政策 v3.0
AI 安全治理的新标杆