Auto Skills：AI Agent 自进化能力全景——从 Voyager 到 Claude Code Skills 的技术演进

核心论断：Auto Skills 是 AI Agent 从"被动工具"到"主动进化"的关键转折。2023 年 Voyager 在 Minecraft 中首次验证了 Agent 自主构建技能库的可行性，2025 年 ATLASS、Alita、Agent0 等工作将这一范式推进到真实世界任务，2026 年 Claude Code Skills、MetaClaw 和 EvoAgentX 标志着工程落地元年的到来。

传统 AI Agent 依赖人类预定义的工具集——你给它什么工具，它就只能做什么事。Auto Skills 打破了这一限制：Agent 能够在执行任务过程中自主发现需求、创建新工具、存储经验、复用技能。这不是科幻设想，而是已有论文验证、开源框架支撑、商业产品落地的技术趋势。^[1]

本报告从三条线索展开：学术脉络（Voyager → LATM → ToolLLM → ATLASS → Alita → Agent0 → 综述）、工程实践（Claude Code Skills → Self-Improving Agent → EvoAgentX）、产业趋势（MCP 协议、Skills 市场、OPC 创业范式）。覆盖 14 篇核心论文和 8 个开源框架。^[5]

§1

什么是 Auto Skills / 自进化 Agent

Agent 自主发现、创建、存储、复用技能的能力

Auto Skills 指 AI Agent 在执行任务过程中，自主发现任务需求、创建解决方案、将其抽象为可复用技能、并在未来任务中检索调用的完整能力闭环。与固定工具集的本质区别在于：传统 Agent 的能力边界由人类预定义，而 Auto Skills Agent 的能力边界随经验积累不断扩展。^[5]

🔍 Skill Discovery（探索发现）

Agent 在开放环境中自主探索，发现新任务并学习解决方案。代表工作：Voyager 在 Minecraft 中通过自动课程不断设定新目标。Evolving PSN 则将技能表示为可执行的符号程序，实现更精确的技能组合。^[1]^[19]

核心机制：好奇心驱动 + 自动课程
技能形态：可执行代码片段 / 符号程序
存储方式：向量检索的技能库

🛠 Tool Making（工具创造）

Agent 在解决具体问题时，将解决方案抽象为通用工具供后续调用。LATM 将 GPT-4 作为"工具制造者"，GPT-3.5 作为"工具使用者"。ToolLLM 更进一步，让 LLM 掌握超过 16,000 个真实 API。^[2]^[14]

核心机制：分工模式（造 vs 用）
技能形态：函数化工具 + 文档
存储方式：工具注册表 / API 索引

🧬 Self-Evolution（自我进化）

Agent 持续优化自身的提示词、工作流、记忆系统。代表工作：EvoAgentX 框架、R-Zero 从零数据实现推理能力自进化、Agent0 通过工具集成推理从零数据释放自进化能力。^[16]^[17]

核心机制：反馈驱动的迭代优化
技能形态：优化后的 prompt / workflow
存储方式：长期记忆 + 版本管理

关键区分：三个不同概念
1. Auto Skills（学术概念）— Agent 自主发现/创建/进化技能的学术研究方向，源自 Voyager (2023)、LATM 等论文，重点研究 Agent 如何自主扩展能力边界。
2. Claude Agent Skills / SKILL.md（工程产品）— Anthropic 2025 年推出的技能格式标准，用 Markdown 文件定义可复用工作流，是一种人工编写的技能包，本身并不自动进化。
3. Function Calling（工具调用）— Agent 调用人类预定义 API 的基础能力。

本报告主要讨论第 1 类——学术意义上的 Agent 自进化能力。§5 中讨论 Claude Code Skills 生态时，重点关注的是其中少数具备自进化特征的项目（如 Self-Improving Agent、TreeSkill），而非 Skills 格式本身。^[15]

自进化能力的价值在于打破了一个根本性约束：Agent 的能力不再受限于设计者的预见性。在真实世界中，任务的复杂度和多样性远超任何预定义工具集的覆盖范围。^[6]

§2

学术奠基：从 Voyager 到 LATM

2023 年的开创性论文定义了 Auto Skills 的基本范式

Voyager：首个开放式自主学习 Agent

Voyager（2023 年 5 月，NVIDIA / Caltech / UT Austin）是首个在开放世界环境中实现持续自主学习的 LLM 驱动 Agent。它在 Minecraft 游戏中自动探索、获取技能、不断进步——无需人类干预。^[1]

📚
Automatic Curriculum（自动课程）
基于当前状态和已有技能，自动生成"下一个该学什么"的目标。课程难度逐步递增，确保 Agent 始终在"最近发展区"学习。^[1]
💾
Skill Library（技能库）
每个成功完成的任务被抽象为一个可执行的 JavaScript 代码函数，存入向量数据库。遇到类似任务时，Agent 通过语义检索找到最相关的已有技能。^[1]
🔄
Iterative Prompting（迭代提示）
代码执行失败时，将错误信息回传给 LLM 修正并重试。只有通过验证的技能才会被存入技能库。^[1]

3.3x

独特物品获取倍率

2.3x

探索距离倍率

15.3x

里程碑达成速度

技能库规模（平均）

Voyager 展示了技能的可迁移性——在一个世界中学到的技能库可以直接应用到新世界，Agent 无需从零开始。^[1]

LATM：LLMs as Tool Makers

LATM（2023 年 5 月，Google DeepMind / Princeton）提出精巧的分工范式：让强模型（GPT-4）负责"造工具"，弱模型（GPT-3.5）负责"用工具"。^[2]

📝

新任务输入

Few-shot 样本

→

🔧Tool Maker
GPT-4 造工具

→

✅

Tool Verifier

验证正确性

→

⚡Tool User
GPT-3.5 调用

核心洞察：造工具是一次性成本，用工具是重复性成本。在 BigBench 中将推理成本降低数倍，同时保持 GPT-4 级准确率。^[2]

"The key insight is that tool making is a one-time cost amortized over many uses, while direct problem-solving with a powerful model incurs cost on every instance." —— LATM 论文^[2]

ToolLLM：掌握 16,000+ 真实 API

ToolLLM（2023 年 7 月，清华 / RapidAPI，HF 99 upvotes）将 Tool Making 推向真实世界，构建了覆盖 16,000+ 真实 API 的训练框架，证明 Agent 可通过检索和推理找到合适工具并正确调用。^[14]

对比维度	Voyager (2023.05)	LATM (2023.05)	ToolLLM (2023.07)
研究机构	NVIDIA / Caltech	DeepMind / Princeton	清华 / RapidAPI
核心范式	Skill Discovery	Tool Making	Tool Learning at Scale
环境	Minecraft 开放世界	BigBench 推理基准	16K+ 真实 API
技能形态	JS 函数 + 向量检索	Python 函数 + 文档	API 调用链 + 规划
开源	MineDojo/Voyager	ctlllll/LLM-ToolMaker	OpenBMB/ToolBench

历史意义：2023 年是 Auto Skills 的奠基之年。Voyager 回答了"Agent 能否自主积累技能"，LATM 回答了"如何让工具创造经济可行"，ToolLLM 回答了"能否规模化到真实世界 API"。

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录

或

Auto Skills：AI Agent 自进化能力全景从 Voyager 到 Claude Code Skills 的技术演进