深度研报 · Agent 自进化 · 2026.03

Auto Skills:AI Agent 自进化能力全景
从 Voyager 到 Claude Code Skills 的技术演进

Agent 正在从"被动工具使用者"变为"主动工具创造者"。本报告系统梳理 2023-2026 年 Auto Skills 技术路线,覆盖学术奠基、前沿研究、工程实践与产业趋势。

3年
研究跨度 2023-2026
14
核心论文
8
开源框架
21
信源
核心论断:Auto Skills 是 AI Agent 从"被动工具"到"主动进化"的关键转折。2023 年 Voyager 在 Minecraft 中首次验证了 Agent 自主构建技能库的可行性,2025 年 ATLASS、Alita、Agent0 等工作将这一范式推进到真实世界任务,2026 年 Claude Code Skills、MetaClaw 和 EvoAgentX 标志着工程落地元年的到来。

传统 AI Agent 依赖人类预定义的工具集——你给它什么工具,它就只能做什么事。Auto Skills 打破了这一限制:Agent 能够在执行任务过程中自主发现需求、创建新工具、存储经验、复用技能。这不是科幻设想,而是已有论文验证、开源框架支撑、商业产品落地的技术趋势。[1]

本报告从三条线索展开:学术脉络(Voyager → LATM → ToolLLM → ATLASS → Alita → Agent0 → 综述)、工程实践(Claude Code Skills → Self-Improving Agent → EvoAgentX)、产业趋势(MCP 协议、Skills 市场、OPC 创业范式)。覆盖 14 篇核心论文和 8 个开源框架。[5]

§1

什么是 Auto Skills / 自进化 Agent

Agent 自主发现、创建、存储、复用技能的能力

Auto Skills 指 AI Agent 在执行任务过程中,自主发现任务需求、创建解决方案、将其抽象为可复用技能、并在未来任务中检索调用的完整能力闭环。与固定工具集的本质区别在于:传统 Agent 的能力边界由人类预定义,而 Auto Skills Agent 的能力边界随经验积累不断扩展。[5]

🔍 Skill Discovery(探索发现)

Agent 在开放环境中自主探索,发现新任务并学习解决方案。代表工作:Voyager 在 Minecraft 中通过自动课程不断设定新目标。Evolving PSN 则将技能表示为可执行的符号程序,实现更精确的技能组合。[1][19]

  • 核心机制:好奇心驱动 + 自动课程
  • 技能形态:可执行代码片段 / 符号程序
  • 存储方式:向量检索的技能库
🛠 Tool Making(工具创造)

Agent 在解决具体问题时,将解决方案抽象为通用工具供后续调用。LATM 将 GPT-4 作为"工具制造者",GPT-3.5 作为"工具使用者"。ToolLLM 更进一步,让 LLM 掌握超过 16,000 个真实 API。[2][14]

  • 核心机制:分工模式(造 vs 用)
  • 技能形态:函数化工具 + 文档
  • 存储方式:工具注册表 / API 索引
🧬 Self-Evolution(自我进化)

Agent 持续优化自身的提示词、工作流、记忆系统。代表工作:EvoAgentX 框架、R-Zero 从零数据实现推理能力自进化、Agent0 通过工具集成推理从零数据释放自进化能力。[16][17]

  • 核心机制:反馈驱动的迭代优化
  • 技能形态:优化后的 prompt / workflow
  • 存储方式:长期记忆 + 版本管理
关键区分:三个不同概念
1. Auto Skills(学术概念)— Agent 自主发现/创建/进化技能的学术研究方向,源自 Voyager (2023)、LATM 等论文,重点研究 Agent 如何自主扩展能力边界。
2. Claude Agent Skills / SKILL.md(工程产品)— Anthropic 2025 年推出的技能格式标准,用 Markdown 文件定义可复用工作流,是一种人工编写的技能包,本身并不自动进化。
3. Function Calling(工具调用)— Agent 调用人类预定义 API 的基础能力。

本报告主要讨论第 1 类——学术意义上的 Agent 自进化能力。§5 中讨论 Claude Code Skills 生态时,重点关注的是其中少数具备自进化特征的项目(如 Self-Improving Agent、TreeSkill),而非 Skills 格式本身。[15]

自进化能力的价值在于打破了一个根本性约束:Agent 的能力不再受限于设计者的预见性。在真实世界中,任务的复杂度和多样性远超任何预定义工具集的覆盖范围。[6]

§2

学术奠基:从 Voyager 到 LATM

2023 年的开创性论文定义了 Auto Skills 的基本范式

Voyager:首个开放式自主学习 Agent

Voyager(2023 年 5 月,NVIDIA / Caltech / UT Austin)是首个在开放世界环境中实现持续自主学习的 LLM 驱动 Agent。它在 Minecraft 游戏中自动探索、获取技能、不断进步——无需人类干预。[1]

3.3x
独特物品获取倍率
2.3x
探索距离倍率
15.3x
里程碑达成速度
67
技能库规模(平均)

Voyager 展示了技能的可迁移性——在一个世界中学到的技能库可以直接应用到新世界,Agent 无需从零开始。[1]

LATM:LLMs as Tool Makers

LATM(2023 年 5 月,Google DeepMind / Princeton)提出精巧的分工范式:让强模型(GPT-4)负责"造工具",弱模型(GPT-3.5)负责"用工具"。[2]

📝
新任务输入
Few-shot 样本
🔧
Tool Maker
GPT-4 造工具
Tool Verifier
验证正确性
Tool User
GPT-3.5 调用

核心洞察:造工具是一次性成本,用工具是重复性成本。在 BigBench 中将推理成本降低数倍,同时保持 GPT-4 级准确率。[2]

"The key insight is that tool making is a one-time cost amortized over many uses, while direct problem-solving with a powerful model incurs cost on every instance." —— LATM 论文[2]

ToolLLM:掌握 16,000+ 真实 API

ToolLLM(2023 年 7 月,清华 / RapidAPI,HF 99 upvotes)将 Tool Making 推向真实世界,构建了覆盖 16,000+ 真实 API 的训练框架,证明 Agent 可通过检索和推理找到合适工具并正确调用。[14]

对比维度Voyager (2023.05)LATM (2023.05)ToolLLM (2023.07)
研究机构NVIDIA / CaltechDeepMind / Princeton清华 / RapidAPI
核心范式Skill DiscoveryTool MakingTool Learning at Scale
环境Minecraft 开放世界BigBench 推理基准16K+ 真实 API
技能形态JS 函数 + 向量检索Python 函数 + 文档API 调用链 + 规划
开源MineDojo/Voyagerctlllll/LLM-ToolMakerOpenBMB/ToolBench
历史意义:2023 年是 Auto Skills 的奠基之年。Voyager 回答了"Agent 能否自主积累技能",LATM 回答了"如何让工具创造经济可行",ToolLLM 回答了"能否规模化到真实世界 API"。

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录