传统 AI Agent 依赖人类预定义的工具集——你给它什么工具,它就只能做什么事。Auto Skills 打破了这一限制:Agent 能够在执行任务过程中自主发现需求、创建新工具、存储经验、复用技能。这不是科幻设想,而是已有论文验证、开源框架支撑、商业产品落地的技术趋势。[1]
本报告从三条线索展开:学术脉络(Voyager → LATM → ToolLLM → ATLASS → Alita → Agent0 → 综述)、工程实践(Claude Code Skills → Self-Improving Agent → EvoAgentX)、产业趋势(MCP 协议、Skills 市场、OPC 创业范式)。覆盖 14 篇核心论文和 8 个开源框架。[5]
什么是 Auto Skills / 自进化 Agent
Agent 自主发现、创建、存储、复用技能的能力
Auto Skills 指 AI Agent 在执行任务过程中,自主发现任务需求、创建解决方案、将其抽象为可复用技能、并在未来任务中检索调用的完整能力闭环。与固定工具集的本质区别在于:传统 Agent 的能力边界由人类预定义,而 Auto Skills Agent 的能力边界随经验积累不断扩展。[5]
Agent 在开放环境中自主探索,发现新任务并学习解决方案。代表工作:Voyager 在 Minecraft 中通过自动课程不断设定新目标。Evolving PSN 则将技能表示为可执行的符号程序,实现更精确的技能组合。[1][19]
- 核心机制:好奇心驱动 + 自动课程
- 技能形态:可执行代码片段 / 符号程序
- 存储方式:向量检索的技能库
1. Auto Skills(学术概念)— Agent 自主发现/创建/进化技能的学术研究方向,源自 Voyager (2023)、LATM 等论文,重点研究 Agent 如何自主扩展能力边界。
2. Claude Agent Skills / SKILL.md(工程产品)— Anthropic 2025 年推出的技能格式标准,用 Markdown 文件定义可复用工作流,是一种人工编写的技能包,本身并不自动进化。
3. Function Calling(工具调用)— Agent 调用人类预定义 API 的基础能力。
本报告主要讨论第 1 类——学术意义上的 Agent 自进化能力。§5 中讨论 Claude Code Skills 生态时,重点关注的是其中少数具备自进化特征的项目(如 Self-Improving Agent、TreeSkill),而非 Skills 格式本身。[15]
自进化能力的价值在于打破了一个根本性约束:Agent 的能力不再受限于设计者的预见性。在真实世界中,任务的复杂度和多样性远超任何预定义工具集的覆盖范围。[6]
学术奠基:从 Voyager 到 LATM
2023 年的开创性论文定义了 Auto Skills 的基本范式
Voyager:首个开放式自主学习 Agent
Voyager(2023 年 5 月,NVIDIA / Caltech / UT Austin)是首个在开放世界环境中实现持续自主学习的 LLM 驱动 Agent。它在 Minecraft 游戏中自动探索、获取技能、不断进步——无需人类干预。[1]
- Automatic Curriculum(自动课程)基于当前状态和已有技能,自动生成"下一个该学什么"的目标。课程难度逐步递增,确保 Agent 始终在"最近发展区"学习。[1]
- Skill Library(技能库)每个成功完成的任务被抽象为一个可执行的 JavaScript 代码函数,存入向量数据库。遇到类似任务时,Agent 通过语义检索找到最相关的已有技能。[1]
- Iterative Prompting(迭代提示)代码执行失败时,将错误信息回传给 LLM 修正并重试。只有通过验证的技能才会被存入技能库。[1]
Voyager 展示了技能的可迁移性——在一个世界中学到的技能库可以直接应用到新世界,Agent 无需从零开始。[1]
LATM:LLMs as Tool Makers
LATM(2023 年 5 月,Google DeepMind / Princeton)提出精巧的分工范式:让强模型(GPT-4)负责"造工具",弱模型(GPT-3.5)负责"用工具"。[2]
核心洞察:造工具是一次性成本,用工具是重复性成本。在 BigBench 中将推理成本降低数倍,同时保持 GPT-4 级准确率。[2]
ToolLLM:掌握 16,000+ 真实 API
ToolLLM(2023 年 7 月,清华 / RapidAPI,HF 99 upvotes)将 Tool Making 推向真实世界,构建了覆盖 16,000+ 真实 API 的训练框架,证明 Agent 可通过检索和推理找到合适工具并正确调用。[14]
| 对比维度 | Voyager (2023.05) | LATM (2023.05) | ToolLLM (2023.07) |
|---|---|---|---|
| 研究机构 | NVIDIA / Caltech | DeepMind / Princeton | 清华 / RapidAPI |
| 核心范式 | Skill Discovery | Tool Making | Tool Learning at Scale |
| 环境 | Minecraft 开放世界 | BigBench 推理基准 | 16K+ 真实 API |
| 技能形态 | JS 函数 + 向量检索 | Python 函数 + 文档 | API 调用链 + 规划 |
| 开源 | MineDojo/Voyager | ctlllll/LLM-ToolMaker | OpenBMB/ToolBench |