Anthropic:将开源对齐工具 Petri 捐赠给 Meridian Labs
Anthropic 把开源对齐工具 Petri 移交给 Meridian Labs 独立开发,并联合发布更新,提升 Petri 测试的适应性、真实性与深度。
查看原文Anthropic 将内部对齐测试工具 Petri 开源并交给 Meridian Labs 独立运营,标志着头部 AI 实验室开始将安全工具链生态化外包,专业安全评测赛道加速独立化。
产品是什么:Petri 是什么
Petri 是 Anthropic 内部开发的对齐自动化测试框架,核心思路是将 AI 对齐问题转化为结构化 fuzz testing——用大量系统性测试用例探测模型的"对齐边界"在哪里。此次移交 Meridian Labs 后,双方联合发布了重要更新,覆盖三个维度:
- 适应性(Adaptability):支持根据不同模型架构和 API 接口自动调整测试策略,降低跨模型复用的门槛。
- 真实性(Authenticity):测试用例生成更贴近真实用户意图分布,而非简单的对抗样本堆砌,减少"高分低能"现象。
- 深度(Depth):引入了多轮交互测试链,能探测模型在长程对话中逐渐偏离对齐目标的情况。
从工具定位看,Petri 属于 AI Safety Evaluation Tooling 赛道,介于研究论文级别的对齐理论和工程化红队测试之间。
解决什么问题
当前 AI 对齐评测的核心痛点是:评测结果不可迁移——一个模型上测出来的安全分数,换到另一个模型或对话上下文里可能完全
继续阅读深度解读 + 编辑加注
下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见
¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道
已是 Pro 但仍被提示?联系反馈
- AnthropicAI 推文原文 · 2026-05-07
- Constitutional AI: Harmless AI Can Learn to Be Helpful Too · 2022-12-15