计算机视觉正经历两条技术路线的历史性汇合:以 CLIP[1]、LLaVA[2]、InternVL[3] 为代表的视觉语言模型(VLM)赋予了机器对图像的高层语义理解与自然语言推理能力;以 SAM[4]、SAM 2[5]、SAM 3[6] 为代表的通用分割模型则提供了类别无关的像素级分割能力。两者的结合正在催生一个新的研究方向——语义驱动的像素级感知,即通过自然语言或复杂推理来驱动精确的图像与视频分割。
研究背景与动机
为什么需要 VLM 与分割模型的融合?
传统的图像分割方法(语义分割、实例分割、全景分割)依赖固定的类别标签进行训练和推理,无法处理训练集之外的概念。这一局限催生了两个研究方向的发展:
然而,单纯的 VLM 只能输出文本或 bounding box,缺乏像素级精度;而 SAM 系列虽然拥有强大的分割能力,但需要明确的点/框/掩码提示,无法理解自然语言或进行推理。二者的互补性驱动了学界和工业界的大量融合研究。
视觉语言模型(VLM)基础
从对比预训练到多模态大模型
CLIP(Contrastive Language-Image Pre-Training)[1]由 OpenAI 于 2021 年发布,通过在 4 亿图文对上进行对比学习,将图像和文本映射到共享的语义空间。CLIP 的核心贡献在于建立了开放词汇的视觉语义对齐,使得模型可以理解任意文本描述的视觉概念,而无需针对特定类别进行训练。
SigLIP 2[11](2025)在 CLIP 基础上引入 Sigmoid Loss 和多语言支持,改善了密集特征的空间定位能力。EVA-CLIP-18B[12]则将视觉编码器扩展到 180 亿参数,在 ImageNet 上达到 89.4% 零样本准确率,为下游密集预测任务提供了更强的视觉特征。
生成式 VLM 将视觉编码器与大语言模型(LLM)桥接,实现视觉问答、图像描述、视觉推理等任务。LLaVA[2](2023)提出了简洁的 Visual Instruction Tuning 范式:冻结 CLIP ViT + 可学习 Projector + 冻结/微调 LLM,以极低成本实现多模态对话能力。
InternVL 系列[3]从 InternVL 到 InternVL3.5,将视觉编码器从 ViT-6B 扩展到更大规模,并引入动态分辨率和 Pixel Shuffle 特征压缩,在多模态理解和推理上持续刷新 SOTA。Qwen2.5-VL[13] 和 Qwen3-VL[14] 进一步强化了视觉 Grounding 能力——Qwen2.5-VL 原生支持输出 bounding box 坐标,为与分割模型的集成提供了便利。
尽管生成式 VLM 已展现出强大的视觉理解能力,但它们存在一个根本性限制:输出空间是离散的文本 token,无法直接生成连续的分割掩码。弥合这一鸿沟的技术路线成为本综述的核心关注点。
通用分割模型(SAM 系列)基础
SAM → SAM 2 → SAM 3:从交互式到概念驱动