← 返回资讯
观点 @bindureddy 2026-02-02

2026 年最重要的 LLM 基准:价格/任务

Bindu Reddy 认为 LLM Token 价格具有误导性,应该衡量完成特定任务的成本,开源和 OpenAI 模型在该指标上往往更优

查看原文
深度解读

说话人的历史观点 + 利益关联

Bindu Reddy 在 AI 评测领域长期持反 benchmark 通胀立场。她曾多次公开质疑 MMLU / HumanEval 等刷分指标的含金量,认为厂商在这些标准化测试上的军备竞赛与实际用户价值脱节。此次她将矛头指向 token 价格,强调"完成特定任务的成本"而非"每 token 单价",延续了她一贯的结果导向评测观

值得注意的是,Reddy 的立场带有明显的实用主义者标签——她更关心企业采购决策时拿什么数字做对比,而非学术上的模型能力边界。这也意味着她的观点天然倾向于为"成本敏感型用户"(而非前沿研究社区)代言。

核心论点拆解

Reddy 的逻辑链是:

本解读由 AI 自动生成 · 模板:观点解读 · 仅供参考,请以原文为准。