Qwen3.7-Max 上线隐式缓存:默认开启,更快更省
通义千问宣布 Qwen3.7-Max 已默认启用 Implicit Caching,无需任何配置自动生效,开箱即用就能更快更便宜;若需更高、更确定的命中率,可改用 Explicit Caching。
查看原文Qwen3.7-Max 默认启用隐式缓存,零配置自动降低重复请求成本。这是 Qwen 系列首次将缓存策略从可选功能升级为默认行为,标志着 API 定价策略从「按 token 计费」向「按有效计算计费」演进。对于高频调用场景,成本降幅可达 30%-50%。
通义千问团队在 Qwen3.7-Max 中引入了 Implicit Caching(隐式缓存),这是一项从架构层面优化推理成本的特性。顾名思义,「隐式」意味着开发者无需做任何配置,模型会自动识别重复或相似的上下文模式,在服务端复用已计算的 KV Cache,从而减少实际计算量。
解决什么问题?
大模型推理的成本主要来自两部分:Token 计算和上下文重复加载。在实际生产环境中,开发者经常用系统提示词(System Prompt)定义 Agent 的行为规范,这些内容在每次请求中几乎不变,但传统架构会反复处理它们。隐式缓存正是针对这类「重复消费」场景优化——当检测到相似前缀时,直接从缓存中恢复 KV 状态,而非重新计算。
官方强调两个关键点:更快(响应延迟下降)和更省(计费减少)。虽然具体折扣比例未公开,但行业惯例是缓存命中后仅收取首次计算费用的 10%-20%。
对比同类竞品
- OpenAI GPT-4o:采用 Prompt Caching 功能,需开发者通过 API 参数显式指定缓存区间(
cache_window● 未登录访客SMARTFLOW PRO继续阅读深度解读 + 编辑加注
下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见
加入机智流 PRO →¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道
已是 Pro 但仍被提示?联系反馈
- Qwen3.7-Max 上线隐式缓存:默认开启,更快更省 · 2026-05-25
- OpenAI Prompt Caching Documentation · 2025-01-01