← 返回资讯
大模型 @Kimi_Moonshot 2026-01-31

Kimi K2.5 登顶 OSWorld 榜首

Kimi K2.5 凭借 Computer Use 能力登顶 OSWorld 排行榜,可构建像人类一样操作电脑界面的智能体

查看原文
TL;DR · 产品解读

Kimi K2.5 在 OSWorld 基准登顶,标志着国产大模型在 Computer Use 智能体能力上首次取得领先。Kimi 的 Computer Use 能力意味着 AI 可以像人类一样「看屏幕→操作鼠标键盘→完成任务」,这对 AI Agent 落地是关键技术突破。

深度解读

产品是什么

Kimi K2.5 是月之暗面(Moonshot AI)发布的旗舰多模态大模型,主打 Computer Use(计算机使用)能力。简单说:它能看懂屏幕截图、理解界面元素,并像人类一样执行鼠标点击、键盘输入等操作序列,来完成复杂任务。

这次登顶的是 OSWorld 基准——这是业界公认的评估 AI Agent 操作电脑能力的权威榜单,测试模型能否在真实操作系统环境(Linux)中完成浏览器、文件管理、代码编辑器等任务。登顶 OSWorld 意味着 Kimi K2.5 在「感知-推理-行动」闭环上领先业界。

解决什么问题

传统 LLM 只能处理文本,而现实世界大量任务需要操作软件界面:RPA 自动化、数据录入、客服机器人、测试脚本生成等。Computer Use 能力让 AI 从「能说」进化到「能做」,是 AI Agent 落地的核心技术瓶颈。

对比同类竞品

参考来源
  1. Kimi K2.5 登顶 OSWorld 榜首 · 2026-01-31
  2. OSWorld Benchmark 官方页面 · 2025-12-01
本解读由 AI 自动生成 · 模板:产品解读 · 仅供参考,请以原文为准。