研究 @dotey 2026-04-15

Anthropic：9 个 Claude 自主做对齐研究，效果比人类研究员强四倍

Anthropic 让 9 个 Claude Opus 在沙盒环境中自主设计实验并共享发现，5 天内将弱到强监督性能差距恢复率从人类的 0.23 大幅提升，验证了 AI 自主对齐研究的可行性。

TL;DR · 评测解读

Anthropic 证明多个 Claude Opus 协作可在 5 天内将弱到强监督恢复率从 0.23 提升至远超人类水平，但沙盒可控性与真实对齐挑战的鸿沟仍是核心疑点，四倍提升需保持审慎乐观。

深度解读

测的是什么？

这项研究针对的核心指标是「弱到强监督性能差距恢复率」（weak-to-strong supervision recovery rate）。具体而言：一个相对弱的模型被要求监督一个更强的模型，以弥补强模型自我评估能力的不足。人类研究员基线为 0.23（即仅恢复了 23% 的性能差距），而 9 个 Claude Opus 在沙盒中协作设计实验、分享发现，五天后该指标大幅提升。

从指标设计看，0.23 是一个相对透明的基线，便于对比；但问题在于：0.23 这个人类基线本身是如何测量的？用了哪些人类研究员？他们的专业背景和工时是否被控制？这些细节直接决定对比的可信度。

方法论质疑：沙盒 ≠ 真实对齐挑战

这是最需要追问的地方。9 个 Claude Opus 在沙盒中运行，意味着：

实验任务、评估指标和反馈循环完全由研究者设计，存在 cherry-picking 风险——如果任务恰好是模型擅长的格式（代码实验、文本推理），结果会显著偏阳性。
「自主设计实验」的能力边界不清楚：模型在沙盒中能访问什么工具？能运行多复杂的代码？这些约束条件在真实对齐研究中并不存在。
5

● 未登录访客

SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源，仅 Pro 会员可见
加入机智流 PRO →
¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示？联系反馈

参考来源

Anthropic: 9 个 Claude 自主做对齐研究 · 2026-04-15
Weak-to-Strong Generalization (OpenAI, 2023) — 原始 baseline 出处 · 2023-11-15

本解读由 AI 自动生成 · 模板：评测解读 · 仅供参考，请以原文为准。