2026 年 3 月,Anthropic 宣布收购视觉感知初创公司 Vercept,将其核心团队——包括联合创始人 Kiana Ehsani、Luca Weihs 以及计算机视觉领域传奇研究员 Ross Girshick(曾主导 R-CNN 系列工作)——纳入 Anthropic。[1]
这次收购的时间节点值得关注:Claude Sonnet 4.6 的 Computer Use 功能在 OSWorld 基准上达到了 72.5% 的准确率,而 2024 年同一基准上最好的模型准确率不足 15%。[1] 视觉感知能力的提升是这一飞跃的核心驱动力,Vercept 团队的加入将进一步加速这一进程。
事件始末:Anthropic 为什么收购 Vercept
一支顶级计算机视觉团队的战略价值
Vercept 由 Kiana Ehsani 和 Luca Weihs 联合创办,两人均出身于 Allen Institute for AI(AI2),在具身智能(Embodied AI)和视觉导航领域拥有丰富的研究经验。团队的第三位核心成员 Ross Girshick 是计算机视觉领域的标杆人物,其 R-CNN、Fast R-CNN、Faster R-CNN 系列论文奠定了现代目标检测的基础,累计引用超过十万次。[1]
Vercept 专注于为软件交互场景构建视觉感知系统——教 AI 理解屏幕上的 UI 元素、按钮布局、文本内容和交互逻辑。这恰好是 Computer Use 最核心的技术需求:AI 要操控电脑,首先必须"看懂"屏幕。[2]
AI2 研究员,具身 AI 与视觉导航专家。在 CVPR/ICLR 等顶会发表多篇论文,专注于 Agent 如何在真实环境中通过视觉理解进行交互。[1]
AI2 高级研究员,AllenAct 框架核心开发者。擅长将感知、规划和执行整合为统一的 Agent 系统架构。[1]
R-CNN 之父,曾任 Meta FAIR 研究科学家。其目标检测方法论直接影响了 AI 理解屏幕元素的技术路线。[1]
Vercept 的感知技术:为软件交互而生
从具身智能到桌面 Agent,视觉感知的迁移
Vercept 的技术根基来自具身智能领域的视觉感知研究。在 AI2 期间,团队构建了多个开源的具身 AI 平台(如 AI2-THOR、RoboTHOR),让 Agent 在模拟环境中学习视觉导航和物体交互。[2]
从物理世界到数字桌面的迁移,核心挑战在于:
- UI 元素识别与分割屏幕上的按钮、菜单、输入框、下拉列表等需要被精确识别并定位。不同于自然场景中的物体检测,UI 元素高度标准化但布局千变万化。[2]
- 空间关系理解AI 需要理解"确认按钮在弹窗右下角""搜索框在页面顶部"等空间关系,才能正确执行鼠标点击和键盘输入操作。[3]
- 状态变化追踪屏幕内容是动态的——页面加载、弹窗出现、内容刷新。Agent 需要持续追踪屏幕状态变化,判断上一步操作是否成功执行。[3]
Vercept 的技术栈与 Anthropic Computer Use 的架构高度互补:Claude 负责高层推理和任务规划,Vercept 的感知模块负责将像素转化为结构化的 UI 语义信息。[1]