方法论

On-Policy Distillation:小模型为什么突然能做大模型的活儿

从"照着完美答案抄"到"自己做题、老师逐字批改"——一次训练范式的转变,正在让轻量模型以约十分之一的成本逼近大模型推理能力

Pro 限定研报

2026-05-30 12 篇信源 读完约 14 分钟

一句话先说清:它到底解决了什么问题

最近半年,"on-policy distillation"(在线策略蒸馏,下文简称 OPD)在大模型团队里很火。Qwen3、DeepSeek、Gemma、小米 MiMo 都在用它训练轻量模型,效果出奇地好,成本还只有传统强化学习的零头。