2026 年 3 月,Anthropic 发布了负责任扩展政策(Responsible Scaling Policy, RSP)v3.0 版本,距 v2.0 发布约一年。这次更新并非渐进式修补,而是对整个安全治理框架的全面重构——引入双重缓解(Dual Mitigations)框架、首次定义 ASL-5 级别、建立季度风险报告制度,并发布配套的 Frontier Safety Roadmap。[1]
RSP 的核心理念始终未变:AI 能力的增长速度不应超过安全保障的增长速度。如果安全措施跟不上模型能力,就应该暂停扩展。v3.0 将这一理念落实为更具体、更可操作的制度设计。[1]
RSP v3.0 概览:从原则到制度
一年时间,从 v2.0 到 v3.0 的全面重构
RSP 最初于 2023 年 9 月发布 v1.0,是 Anthropic 对"如何安全地扩展 AI 能力"这一问题的系统性回答。v2.0(2025 年初)增加了更详细的 ASL 级别定义和评估流程。v3.0 则在此基础上实现了三个层面的升级。[1]
核心变化:双重缓解与模糊地带
v3.0 最重要的概念创新
双重缓解框架(Dual Mitigations)是 v3.0 最核心的概念创新。此前版本中,安全措施被笼统地归为一类。v3.0 将其拆分为两个独立维度,每个维度都必须独立满足要求:[1]
防止模型被用于造成直接伤害。例如:拒绝生成危险内容、限制敏感能力的使用、输出过滤机制。重点是"模型不做坏事"。[1]
- 输入/输出安全过滤
- 使用政策执行
- 危险能力限制
- 滥用检测与响应
防止模型权重和关键能力被窃取或泄露。例如:访问控制、加密、安全审计、供应链安全。重点是"模型不被偷走"。[1]
- 模型权重保护
- 基础设施安全
- 员工访问控制
- 供应链审计
v3.0 还首次直面了一个在实践中反复出现的难题——"模糊地带"(Zone of Ambiguity):当评估结果处于"明确安全"和"明确危险"之间时,如何决策?[3]