GPT-5.4 OSWorld 75% 超越人类基线：AI Agent 首次在桌面任务中击败人类

核心论断：GPT-5.4 在 OSWorld 上超越人类基线是一个标志性时刻——AI Agent 首次在 OSWorld-Verified 这一基准上超过人类基线，在标准化桌面任务中展现出更高的完成率。结合 1M Token 上下文窗口和原生 Computer Use 能力，GPT-5.4 正在将"AI Agent"从概念演示推向实际可用。

OpenAI 于 2026 年 3 月 5 日发布 GPT-5.4，这是其首个内置原生计算机操作能力的通用模型。在 OSWorld-Verified 评测中，GPT-5.4 以 75.0% 的成功率超越人类测试者的 72.4% 基线——首个前沿模型在桌面自主任务中击败人类。^[1]

GPT-5.4 还搭载了 1M Token 上下文窗口（OpenAI 最大）和 Tool Search（动态工具发现）等创新能力，在多个 Agent 评测中刷新记录。^[2]

§1

突破：超越人类基线意味着什么

从"能用"到"比人类更可靠"

OSWorld 是一个评测 AI Agent 在真实桌面环境中自主完成任务能力的基准。任务包括：导航 UI、管理文件、执行终端命令、在多个应用之间切换完成复杂工作流——都是日常办公中的真实场景。^[1]

GPT-5.4 以 75.0% 的成功率超越人类测试者的 72.4% 基线。这意味着在相同条件下，GPT-5.4 完成桌面任务的可靠性已经高于该基准中的人类测试者基线。^[1]

75.0%

GPT-5.4 OSWorld-V

72.4%

人类基线

92.8%

Online-Mind2Web

67.3%

WebArena-Verified

🖥 原生 Computer Use

GPT-5.4 可以通过截图、鼠标点击和键盘输入直接操控软件——不依赖 API，而是像人类一样"看屏幕、动鼠标"。这是 OpenAI 首个搭载原生计算机操作能力的通用模型。^[2]

📏 1M Token 上下文

100 万 Token 上下文窗口让 Agent 可以在长时间跨度内规划、执行和验证任务，无需频繁"遗忘"之前的上下文。这是 OpenAI 提供的最大上下文窗口。^[3]

🔍 Tool Search

新的动态工具发现机制：模型接收轻量级工具列表，需要时再查找具体工具定义。解决了 Agent 工具数量与上下文窗口的矛盾。^[3]

更准确、更高效：与 GPT-5.2 相比，GPT-5.4 的单个声明错误率降低 33%，整体响应错误率降低 18%，同时推理 Token 消耗显著减少——用更少的算力解决更难的问题。^[1]

§2

OSWorld 评测详解

桌面自主任务的"图灵测试"

OSWorld 评测为何重要？因为它测试的不是"知道什么"，而是"能做什么"。任务要求 Agent 在真实操作系统环境中完成多步骤工作流——打开应用、点击按钮、填写表单、切换窗口、验证结果。^[2]

评测	GPT-5.4	人类基线	超越人类	测试内容
OSWorld-Verified	75.0%	72.4%	+2.6pp	桌面 UI 导航、文件管理、终端命令
Online-Mind2Web	92.8%	—	—	仅截图的浏览器操作
WebArena-Verified	67.3%	—	—	DOM + 截图的浏览器导航
Toolathlon	54.6%	—	—	多步骤真实工具和 API 使用

值得注意的差异：在 Online-Mind2Web（仅截图浏览器操作）中 GPT-5.4 高达 92.8%，但在 Toolathlon（多步骤真实工具使用）中只有 54.6%。这说明简单 UI 操作已经接近解决，但复杂工具链编排仍有很大提升空间。^[2]

📸

截图观察

看到屏幕内容

→

🧠GPT-5.4 推理
规划下一步操作

→

🖱

执行操作

点击/输入/滚动

→

✅

验证结果

截图确认完成

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录

或

GPT-5.4 OSWorld 75% 超越人类基线AI Agent 首次在桌面任务中击败人类

突破：超越人类基线意味着什么

OSWorld 评测详解

登录后阅读完整报告

GPT-5.4 OSWorld 75% 超越人类基线
AI Agent 首次在桌面任务中击败人类