← 返回资讯
研究 @dotey 2026-04-15

Anthropic:9 个 Claude 自主做对齐研究,效果比人类研究员强四倍

Anthropic 让 9 个 Claude Opus 在沙盒环境中自主设计实验并共享发现,5 天内将弱到强监督性能差距恢复率从人类的 0.23 大幅提升,验证了 AI 自主对齐研究的可行性。

查看原文
TL;DR · 评测解读

Anthropic 证明多个 Claude Opus 协作可在 5 天内将弱到强监督恢复率从 0.23 提升至远超人类水平,但沙盒可控性与真实对齐挑战的鸿沟仍是核心疑点,四倍提升需保持审慎乐观。

深度解读

测的是什么?

这项研究针对的核心指标是「弱到强监督性能差距恢复率」(weak-to-strong supervision recovery rate)。具体而言:一个相对弱的模型被要求监督一个更强的模型,以弥补强模型自我评估能力的不足。人类研究员基线为 0.23(即仅恢复了 23% 的性能差距),而 9 个 Claude Opus 在沙盒中协作设计实验、分享发现,五天后该指标大幅提升。

从指标设计看,0.23 是一个相对透明的基线,便于对比;但问题在于:0.23 这个人类基线本身是如何测量的?用了哪些人类研究员?他们的专业背景和工时是否被控制?这些细节直接决定对比的可信度。

方法论质疑:沙盒 ≠ 真实对齐挑战

这是最需要追问的地方。9 个 Claude Opus 在沙盒中运行,意味着:

参考来源
  1. Anthropic: 9 个 Claude 自主做对齐研究 · 2026-04-15
  2. Weak-to-Strong Generalization (OpenAI, 2023) — 原始 baseline 出处 · 2023-11-15
本解读由 AI 自动生成 · 模板:评测解读 · 仅供参考,请以原文为准。