深度研报 · AI Agent · 2026.03

GPT-5.4 OSWorld 75% 超越人类基线
AI Agent 首次在桌面任务中击败人类

2026 年 3 月 5 日,OpenAI 发布 GPT-5.4,在 OSWorld-Verified 桌面任务评测中以 75.0% 得分超越人类基线 72.4%。这是首个在自主桌面操作中超越人类的前沿模型。

75%
OSWorld-V 得分
72.4%
人类基线
1M
Token 上下文
5
信源
核心论断:GPT-5.4 在 OSWorld 上超越人类基线是一个标志性时刻——AI Agent 首次在 OSWorld-Verified 这一基准上超过人类基线,在标准化桌面任务中展现出更高的完成率。结合 1M Token 上下文窗口和原生 Computer Use 能力,GPT-5.4 正在将"AI Agent"从概念演示推向实际可用。

OpenAI 于 2026 年 3 月 5 日发布 GPT-5.4,这是其首个内置原生计算机操作能力的通用模型。在 OSWorld-Verified 评测中,GPT-5.4 以 75.0% 的成功率超越人类测试者的 72.4% 基线——首个前沿模型在桌面自主任务中击败人类。[1]

GPT-5.4 还搭载了 1M Token 上下文窗口(OpenAI 最大)和 Tool Search(动态工具发现)等创新能力,在多个 Agent 评测中刷新记录。[2]

§1

突破:超越人类基线意味着什么

从"能用"到"比人类更可靠"

OSWorld 是一个评测 AI Agent 在真实桌面环境中自主完成任务能力的基准。任务包括:导航 UI、管理文件、执行终端命令、在多个应用之间切换完成复杂工作流——都是日常办公中的真实场景。[1]

GPT-5.4 以 75.0% 的成功率超越人类测试者的 72.4% 基线。这意味着在相同条件下,GPT-5.4 完成桌面任务的可靠性已经高于该基准中的人类测试者基线[1]

75.0%
GPT-5.4 OSWorld-V
72.4%
人类基线
92.8%
Online-Mind2Web
67.3%
WebArena-Verified
🖥 原生 Computer Use

GPT-5.4 可以通过截图、鼠标点击和键盘输入直接操控软件——不依赖 API,而是像人类一样"看屏幕、动鼠标"。这是 OpenAI 首个搭载原生计算机操作能力的通用模型。[2]

📏 1M Token 上下文

100 万 Token 上下文窗口让 Agent 可以在长时间跨度内规划、执行和验证任务,无需频繁"遗忘"之前的上下文。这是 OpenAI 提供的最大上下文窗口。[3]

🔍 Tool Search

新的动态工具发现机制:模型接收轻量级工具列表,需要时再查找具体工具定义。解决了 Agent 工具数量与上下文窗口的矛盾。[3]

更准确、更高效:与 GPT-5.2 相比,GPT-5.4 的单个声明错误率降低 33%,整体响应错误率降低 18%,同时推理 Token 消耗显著减少——用更少的算力解决更难的问题。[1]
§2

OSWorld 评测详解

桌面自主任务的"图灵测试"

OSWorld 评测为何重要?因为它测试的不是"知道什么",而是"能做什么"。任务要求 Agent 在真实操作系统环境中完成多步骤工作流——打开应用、点击按钮、填写表单、切换窗口、验证结果。[2]

评测GPT-5.4人类基线超越人类测试内容
OSWorld-Verified75.0%72.4%+2.6pp桌面 UI 导航、文件管理、终端命令
Online-Mind2Web92.8%仅截图的浏览器操作
WebArena-Verified67.3%DOM + 截图的浏览器导航
Toolathlon54.6%多步骤真实工具和 API 使用

值得注意的差异:在 Online-Mind2Web(仅截图浏览器操作)中 GPT-5.4 高达 92.8%,但在 Toolathlon(多步骤真实工具使用)中只有 54.6%。这说明简单 UI 操作已经接近解决,但复杂工具链编排仍有很大提升空间[2]

📸
截图观察
看到屏幕内容
🧠
GPT-5.4 推理
规划下一步操作
🖱
执行操作
点击/输入/滚动
验证结果
截图确认完成

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录