产品发布 @AnthropicAI 2026-05-07

Anthropic：将开源对齐工具 Petri 捐赠给 Meridian Labs

Anthropic 把开源对齐工具 Petri 移交给 Meridian Labs 独立开发，并联合发布更新，提升 Petri 测试的适应性、真实性与深度。

TL;DR · 产品解读

Anthropic 将内部对齐测试工具 Petri 开源并交给 Meridian Labs 独立运营，标志着头部 AI 实验室开始将安全工具链生态化外包，专业安全评测赛道加速独立化。

深度解读

Petri 是 Anthropic 内部开发的对齐自动化测试框架，核心思路是将 AI 对齐问题转化为结构化 fuzz testing——用大量系统性测试用例探测模型的"对齐边界"在哪里。此次移交 Meridian Labs 后，双方联合发布了重要更新，覆盖三个维度：

从工具定位看，Petri 属于 AI Safety Evaluation Tooling 赛道，介于研究论文级别的对齐理论和工程化红队测试之间。

当前 AI 对齐评测的核心痛点是：评测结果不可迁移——一个模型上测出来的安全分数，换到另一个模型或对话上下文里可能完全

● 未登录访客

SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源，仅 Pro 会员可见

¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示？联系反馈

参考来源

本解读由 AI 自动生成 · 模板：产品解读 · 仅供参考，请以原文为准。