深度研报 · AI 安全 · 2026.03

Anthropic x Mozilla
Claude 两周发现 Firefox 22 个漏洞,14 个高危

Anthropic 与 Mozilla 联合开展 AI 安全审计实验——Claude 在两周内扫描 6000 个 C++ 文件,提交 112 份报告,确认 22 个真实漏洞。Firefox 148.0 已修复相关问题,惠及数亿用户。

22
确认漏洞
14
高危漏洞
20min
UAF 发现耗时
6000
扫描 C++ 文件数
核心论断:Anthropic 与 Mozilla 的合作是 AI 辅助安全审计的标志性案例。Claude 在两周内发现了 22 个 Firefox 漏洞(14 个高危),其中近 1/5 的高危漏洞占到 Firefox 2025 年全年关键漏洞总数的相当比例。API 成本仅 $4,000,远低于传统人工安全审计的数十万美元。这一成果同时揭示了一个不对称性:AI 更擅长"找到漏洞"而非"利用漏洞"——在数百次漏洞利用尝试中仅成功 2 次。

安全漏洞发现历来是高度依赖专家经验的领域。传统的静态分析工具(如 Coverity、CodeQL)擅长模式匹配但缺乏语义理解;人工审计质量高但成本昂贵且速度慢。Anthropic 与 Mozilla 的合作项目探索了第三条路径:用 LLM 的代码理解能力弥补两者的不足[1]

本报告从四个维度解析这一合作:合作背景(为什么是 Firefox、为什么是 Anthropic)、发现过程(技术方法与关键发现)、安全启示(AI 在安全领域的能力与局限)、对开发者的意义(如何将 AI 融入安全工作流)。[1]

§1

合作背景:为什么是 Firefox,为什么是现在

开源浏览器 + AI 安全能力 = 理想的验证场景

Firefox 作为全球使用最广泛的开源浏览器之一,拥有超过二十年的 C++ 代码库,代码量庞大、历史包袱重。Mozilla 一直是安全领域的先驱——率先推出 Bug Bounty 计划、积极采用 Rust 重写关键组件(Stylo、WebRender)。与 Anthropic 的合作是 Mozilla 探索 AI 辅助安全的自然延伸。[1]

🦊 Mozilla 的动机

Firefox 代码库包含数百万行 C++ 代码,传统人工审计无法覆盖全部。C++ 的内存安全问题(Use After Free、Buffer Overflow)是浏览器安全的最大威胁。Mozilla 希望验证 AI 能否成为安全审计的"力量倍增器"。[1]

🤖 Anthropic 的动机

Anthropic 希望证明 AI 安全能力的"防御价值"远大于"攻击风险"。通过与声誉卓著的开源组织合作,展示 Claude 在关键基础设施安全中的实际价值,同时验证 AI 发现漏洞 vs 利用漏洞的不对称性。[1]

合作模式:Anthropic 提供 Claude API 访问和安全研究专业知识,Mozilla 提供 Firefox 代码库访问和漏洞验证能力。双方共同设计扫描策略,Mozilla 安全团队负责最终的漏洞确认和修复。整个项目从启动到 Firefox 148.0 发布修复,历时约两个月。[1]
§2

发现过程:6000 文件、112 报告、22 漏洞

从大规模扫描到精准定位的技术方法

Claude 的扫描覆盖了 Firefox 代码库中约 6,000 个 C++ 源文件,生成了 112 份漏洞报告。经 Mozilla 安全团队逐一审核,最终确认 22 个真实漏洞,其中 14 个被评为高危(high-severity)。[1]

6,000
扫描 C++ 文件数
112
提交漏洞报告
22
确认真实漏洞
14
高危漏洞

关键发现:JS 引擎 Use After Free(20 分钟)

最引人注目的发现是 Firefox JavaScript 引擎(SpiderMonkey)中的一个 Use After Free 漏洞。Claude 仅用 20 分钟即定位到该问题——一块已释放的内存在后续代码路径中被错误引用。这类漏洞在 C++ 代码库中极为隐蔽,通常需要经验丰富的安全研究员数天甚至数周才能发现。[1]

📂
代码输入
6000 个 C++ 文件
🔍
Claude 分析
语义理解 + 模式识别
📋
报告生成
112 份候选报告
人工确认
22 个真实漏洞
漏洞类型数量严重程度典型场景
Use After Free多个高危JS 引擎、DOM 处理
Buffer Overflow多个高危图像解码、网络协议
逻辑错误多个中危权限检查、状态管理
其他内存安全多个中-高危内存管理、并发竞争
精确率分析:112 份报告中确认 22 个真实漏洞,精确率约 19.6%。虽然约 80% 的报告是误报,但考虑到扫描规模(6000 文件)和发现质量(14 个高危),这一精确率在自动化安全工具中属于优秀水平。传统静态分析工具的误报率通常更高。[1]

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录