GAIR Paper 106|追踪视觉 Token 的演化轨迹,实现无损压缩与 60% 推理加速|CVPR 2026
从“谁被关注”到“谁在变化”,重新定义Token的重要性。 作者丨李傲 中国人民大学 近年来,以LLaVA、Qwen系列为代表的大视觉语言模型(LVLM)推动了多模态智能的发展,在视觉理解与推理任务中展现不错的表现。然而,其伴随着高昂的推理成本。面对高分辨率图像或者视频时,模型往往需要处理大量视觉Token,而这些Token会在整个推理过程中持续参与计算,成为制约模型效率的重要瓶颈。因此,如何识别
查看原文解读生成中或暂时不可用,请稍后刷新重试,或直接查看原文。