深度研报 · AI 安全 · 2026.03

Anthropic 揭露蒸馏攻击
DeepSeek、Moonshot、MiniMax 如何窃取 Claude 能力

Anthropic 公开披露三家中国 AI 公司大规模蒸馏 Claude 模型输出——MiniMax 发起 1300 万次交互,Moonshot 340 万次,DeepSeek 15 万次。检测方法、攻击架构与防御策略全面解读。

1300万
MiniMax 交互次数
3家
涉事中国 AI 公司
5维
检测信号维度
6
信源
核心论断:Anthropic 对蒸馏攻击的公开披露,是 AI 行业第一次有头部公司用真实数据和技术细节揭示模型能力盗窃的规模与手法。这不仅是一场安全事件,更预示着 AI 行业知识产权保护的全新战场。

2026 年 3 月,Anthropic 发布了一份详尽的技术报告,披露其检测到三家中国 AI 公司——DeepSeekMoonshot(月之暗面/Kimi)MiniMax(稀宇科技)——对 Claude 模型进行的大规模蒸馏攻击(Distillation Attack)。[1]

蒸馏攻击的核心手法是:通过大量调用目标模型 API,收集其输入-输出对作为训练数据,用于训练自己的模型。本质上是在不获取模型权重的情况下"复制"模型能力。三家公司的攻击规模令人震惊——MiniMax 累计发起了约 1300 万次交互。[1]

§1

事件全貌:三家公司的蒸馏行为

从 15 万次到 1300 万次,规模差异背后的不同策略

Anthropic 的检测系统追踪到三家公司在不同时间段内、通过不同方式对 Claude API 发起的大规模系统性调用。这些调用的模式明显区别于正常的企业使用场景——重复性极高、覆盖面极广、主题分布高度工程化。[1]

公司交互次数攻击特征推测目的
DeepSeek~15万次高质量推理链提取、集中在数学/代码领域提升推理能力的训练数据
Moonshot~340万次大量多轮对话生成、覆盖广泛主题通用能力蒸馏训练数据
MiniMax~1300万次Hydra 集群架构、多账号并行、规避限流大规模系统化蒸馏
15万
DeepSeek 交互
340万
Moonshot 交互
1300万
MiniMax 交互
~1655万
总交互次数

三家公司的攻击规模存在数量级差异:DeepSeek 的 15 万次交互相对"精准",集中在特定能力领域;Moonshot 的 340 万次覆盖面更广;MiniMax 的 1300 万次则是全方位、工业化的系统性蒸馏。[1]

规模的含义:1300 万次高质量交互产生的训练数据量级堪比一个中等规模的 SFT(Supervised Fine-Tuning)数据集。如果每次交互平均包含 500 token 的输出,仅 MiniMax 一家就获取了约 65 亿 token 的 Claude 输出——这些是经过 Anthropic 数十亿美元研发投入才获得的高质量模型能力的直接复制品。[2]
§2

攻击详情:Hydra 集群与规避策略

MiniMax 的工业化蒸馏基础设施

在三家公司中,MiniMax 的攻击最为系统化和工程化。Anthropic 将其使用的基础设施命名为 "Hydra 集群"——一个分布式的、多账号并行的蒸馏系统,设计目标是最大化数据获取量同时规避检测。[1]

🎯
任务调度器
prompt 生成 + 分发
🐙
Hydra 集群
多账号 + 多 IP
📡
Claude API
分散式调用
💾
数据收集
输入-输出对存储

Hydra 集群的核心设计特征:

👥 多账号并行

使用大量独立账号同时发起请求,每个账号的调用量控制在正常范围内,避免触发单账号限流。账号之间表面上没有关联。[1]

🌐 IP 地址分散

通过代理网络和 VPN 分散请求来源 IP,模拟全球各地的独立用户。单个 IP 的请求频率保持在正常水平。[1]

🎲 请求模式伪装

在请求间加入随机延迟、变换提问风格、穿插"正常"对话,试图让调用模式看起来像人类用户的自然使用。[3]

DeepSeek 的策略更为聚焦:主要针对数学推理和代码生成等高价值能力领域,使用精心构造的提示词引导 Claude 产出详细的思维链(Chain-of-Thought)。这种"精准蒸馏"虽然量小但价值密度高——每一条推理链都可能包含 Claude 在复杂问题上的决策路径。[1]

Moonshot 采取了"广覆盖"策略:对话主题横跨数百个领域,从日常问答到专业知识,从创意写作到逻辑推理。目标似乎是构建一个覆盖 Claude 通用能力的全面训练集。[1]

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录