Anthropic 收购 Vercept：Computer Use 背后的感知技术与 AI 操控电脑的未来

核心论断：Anthropic 收购 Vercept 不是一次普通的人才收购，而是对 Computer Use 技术栈中最关键短板——视觉感知——的战略性补强。当 Claude 能真正"看懂"屏幕上的每一个像素时，AI 操控电脑的能力将发生质变。

2026 年 3 月，Anthropic 宣布收购视觉感知初创公司 Vercept，将其核心团队——包括联合创始人 Kiana Ehsani、Luca Weihs 以及计算机视觉领域传奇研究员 Ross Girshick（曾主导 R-CNN 系列工作）——纳入 Anthropic。^[1]

这次收购的时间节点值得关注：Claude Sonnet 4.6 的 Computer Use 功能在 OSWorld 基准上达到了 72.5% 的准确率，而 2024 年同一基准上最好的模型准确率不足 15%。^[1] 视觉感知能力的提升是这一飞跃的核心驱动力，Vercept 团队的加入将进一步加速这一进程。

§1

事件始末：Anthropic 为什么收购 Vercept

一支顶级计算机视觉团队的战略价值

Vercept 由 Kiana Ehsani 和 Luca Weihs 联合创办，两人均出身于 Allen Institute for AI（AI2），在具身智能（Embodied AI）和视觉导航领域拥有丰富的研究经验。团队的第三位核心成员 Ross Girshick 是计算机视觉领域的标杆人物，其 R-CNN、Fast R-CNN、Faster R-CNN 系列论文奠定了现代目标检测的基础，累计引用超过十万次。^[1]

Vercept 专注于为软件交互场景构建视觉感知系统——教 AI 理解屏幕上的 UI 元素、按钮布局、文本内容和交互逻辑。这恰好是 Computer Use 最核心的技术需求：AI 要操控电脑，首先必须"看懂"屏幕。^[2]

👤 Kiana Ehsani

AI2 研究员，具身 AI 与视觉导航专家。在 CVPR/ICLR 等顶会发表多篇论文，专注于 Agent 如何在真实环境中通过视觉理解进行交互。^[1]

👤 Luca Weihs

AI2 高级研究员，AllenAct 框架核心开发者。擅长将感知、规划和执行整合为统一的 Agent 系统架构。^[1]

👤 Ross Girshick

R-CNN 之父，曾任 Meta FAIR 研究科学家。其目标检测方法论直接影响了 AI 理解屏幕元素的技术路线。^[1]

收购逻辑：Anthropic 的 Computer Use 已经证明 LLM 可以操控电脑，但视觉感知仍然是最大瓶颈——模型经常误读 UI 元素、忽略弹窗、混淆相似按钮。Vercept 团队的加入，是对这一瓶颈的精准打击。

§2

Vercept 的感知技术：为软件交互而生

从具身智能到桌面 Agent，视觉感知的迁移

Vercept 的技术根基来自具身智能领域的视觉感知研究。在 AI2 期间，团队构建了多个开源的具身 AI 平台（如 AI2-THOR、RoboTHOR），让 Agent 在模拟环境中学习视觉导航和物体交互。^[2]

从物理世界到数字桌面的迁移，核心挑战在于：

🖥
UI 元素识别与分割
屏幕上的按钮、菜单、输入框、下拉列表等需要被精确识别并定位。不同于自然场景中的物体检测，UI 元素高度标准化但布局千变万化。^[2]
📐
空间关系理解
AI 需要理解"确认按钮在弹窗右下角""搜索框在页面顶部"等空间关系，才能正确执行鼠标点击和键盘输入操作。^[3]
🔄
状态变化追踪
屏幕内容是动态的——页面加载、弹窗出现、内容刷新。Agent 需要持续追踪屏幕状态变化，判断上一步操作是否成功执行。^[3]

📸

屏幕截图

像素级输入

→

👁Vercept 感知层
UI 识别 + 空间理解

→

🧠

Claude 推理层

决策 + 规划

→

🖱

操作执行

点击 / 输入 / 滚动

Vercept 的技术栈与 Anthropic Computer Use 的架构高度互补：Claude 负责高层推理和任务规划，Vercept 的感知模块负责将像素转化为结构化的 UI 语义信息。^[1]

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录

或

Anthropic 收购 VerceptComputer Use 背后的感知技术与 AI 操控电脑的未来

事件始末：Anthropic 为什么收购 Vercept

Vercept 的感知技术：为软件交互而生

登录后阅读完整报告

Anthropic 收购 Vercept
Computer Use 背后的感知技术与 AI 操控电脑的未来