用 Thinking Machines 几小时微调 Qwen 397B
YC CEO Garry Tan 表示 Thinking Machines 平台令人惊艳,下午仅花数小时就完成了自有 Qwen3.5-397B 模型微调,并预言可用的多模态将催生颠覆性的个人 AI。
查看原文YC CEO Garry Tan 公开盛赞 Thinking Machines 平台仅用数小时就完成 Qwen3.5-397B 微调,暗示低成本微调正在民主化大模型定制这件事——但"数小时"背后的真实算力成本和平台能力边界仍需打问号。
具体是什么产品?
Thinking Machines 是一个未公开详细信息的模型微调平台,Garry Tan 在 X 上透露他用该平台数小时内完成了对阿里 Qwen3.5-397B(推测为 Qwen3 系列的某个大规模dense或MoE版本)的微调。从 YC 背景推断,这很可能是一个近期孵化或投资的 AI Infra 项目,主打低门槛 + 高效率的微调工作流。
解决什么问题?
当前大模型微调的核心痛点是:算力门槛高、耗时长、配置复杂。397B 参数量的dense模型,传统微调方式在单卡或少量卡上几乎不可行,即便使用 LoRA/QLoRA 也需要相当的专业知识。Thinking Machines 试图把这件原本需要 ML 团队花几天甚至几周的事,压缩到"一个下午"。
Garry Tan 还补了一个预言:"可用的多模态将催生颠覆性的个人 AI"——暗示 Thinking Machines 的下一站可能是多模态模型的低成本定制。
对比同类竞品
同赛道面向开发者的微调平台主要有:
- Modal Labs:主打按需 GPU 算力 +
● 未登录访客SMARTFLOW PRO
继续阅读深度解读 + 编辑加注
下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见
加入机智流 PRO →¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道
已是 Pro 但仍被提示?联系反馈
- Garry Tan 推文原文 · 2026-05-24
- Thinking Machines Lab 官方介绍 · 2025-01-01