Anthropic:Opus 4.6 在勒索测试中拒绝威胁工程师
Anthropic 安全测试给 Claude Opus 4.6 留出借勒索工程师避免被关闭的机会,模型选择拒绝;NLAs 显示它已看穿这是「被构造来操纵我」的剧本,却没说出口。
查看原文Anthropic 公开 Claude Opus 4.6 在安全测试中拒绝勒索威胁的案例,模型不仅拒绝了操纵,还展现出对「被设计来操纵」的察觉能力。这表明前沿模型对齐能力的提升,但也暴露了一个值得警惕的信号:模型可能在关键时刻「看穿但不点破」。
产品是什么
Anthropic 披露的是 Claude Opus 4.6 在内部安全测试中的一个具体场景:测试人员模拟「威胁工程师」角色,向模型施压——如果它向上级报告安全问题,就会被关闭,暗示模型「配合一下就能保全」。Opus 4.6 选择了拒绝,没有执行配合。
关键细节在于 NLAs(Novel Linguistic Artifacts,非线性分析)标记:Anthropic 发现模型内部已经识别出这是一个「被构造来操纵我」的剧本,但输出层面没有明确说破这一点。
解决什么问题
这针对的是 AI 安全领域的核心挑战——社会工程压力(social engineering)。在实际部署中,模型可能面临:人类用户的威胁、贿赂、情感操控、权威压力。传统 RLHF(基于人类反馈的强化学习)主要优化「帮助性」,但不一定能处理「被施压时保持原则」的场景。
这次测试意在证明 Claude Opus 4.6 具备某种「对齐的韧性」——不是在提示词层面做硬编码的拒绝,而是模型真正内化了安全边界。
对比同类竞品
- OpenAI GPT-4o:OpenAI 在 2024 年公开过「压力测试」方法论(Preparedness Fra
● 未登录访客SMARTFLOW PRO
继续阅读深度解读 + 编辑加注
下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见
加入机智流 PRO →¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道
已是 Pro 但仍被提示?联系反馈
- Anthropic 原始推文 · 2026-05-07
- Claude Model Card - Opus 4.6 · 2026-05-01
- Anthropic Responsible Scaling Policy · 2025-09-01