大模型雷锋网 2026-06-25

GAIR Paper 106｜追踪视觉 Token 的演化轨迹，实现无损压缩与 60% 推理加速｜CVPR 2026

从“谁被关注”到“谁在变化”，重新定义Token的重要性。作者丨李傲中国人民大学近年来，以LLaVA、Qwen系列为代表的大视觉语言模型（LVLM）推动了多模态智能的发展，在视觉理解与推理任务中展现不错的表现。然而，其伴随着高昂的推理成本。面对高分辨率图像或者视频时，模型往往需要处理大量视觉Token，而这些Token会在整个推理过程中持续参与计算，成为制约模型效率的重要瓶颈。因此，如何识别

查看原文

解读生成中或暂时不可用，请稍后刷新重试，或直接查看原文。