视觉语言模型与通用分割模型的协同综述：从语义理解到像素级感知

计算机视觉正经历两条技术路线的历史性汇合：以 CLIP^[1]、LLaVA^[2]、InternVL^[3] 为代表的视觉语言模型（VLM）赋予了机器对图像的高层语义理解与自然语言推理能力；以 SAM^[4]、SAM 2^[5]、SAM 3^[6] 为代表的通用分割模型则提供了类别无关的像素级分割能力。两者的结合正在催生一个新的研究方向——语义驱动的像素级感知，即通过自然语言或复杂推理来驱动精确的图像与视频分割。

核心观察：VLM 擅长"理解什么"（What），SAM 擅长"分割哪里"（Where）。二者的融合本质上是在解决 "根据语义理解去定位像素级边界" 这一长期未解的视觉感知问题。从 2023 年 Grounded SAM 的松耦合管线到 2025 年 Sa2VA 的端到端统一，融合范式正在快速演进。

§1

研究背景与动机

为什么需要 VLM 与分割模型的融合？

传统的图像分割方法（语义分割、实例分割、全景分割）依赖固定的类别标签进行训练和推理，无法处理训练集之外的概念。这一局限催生了两个研究方向的发展：

🗣️ 语言驱动的分割

用户通过自然语言描述目标对象，模型输出对应的分割掩码。从 Referring Expression Segmentation（RES）^[7]发展到 Reasoning Segmentation^[8]，语言指令的复杂度从简单名词短语升级到需要世界知识推理的复杂指令。

🌐 开放词汇分割

模型能够分割训练时从未见过的类别。CLIP 等视觉语言预训练模型提供的开放词汇语义空间^[1]，为打破闭集类别限制提供了可能，催生了 ODISE^[9]、OpenSeeD^[10] 等方法。

然而，单纯的 VLM 只能输出文本或 bounding box，缺乏像素级精度；而 SAM 系列虽然拥有强大的分割能力，但需要明确的点/框/掩码提示，无法理解自然语言或进行推理。二者的互补性驱动了学界和工业界的大量融合研究。

VLM 主流系列

SAM 代际

20+

融合方法

2023-26

爆发期

§2

视觉语言模型（VLM）基础

从对比预训练到多模态大模型

2.1 对比学习范式：CLIP / SigLIP / EVA-CLIP

CLIP（Contrastive Language-Image Pre-Training）^[1]由 OpenAI 于 2021 年发布，通过在 4 亿图文对上进行对比学习，将图像和文本映射到共享的语义空间。CLIP 的核心贡献在于建立了开放词汇的视觉语义对齐，使得模型可以理解任意文本描述的视觉概念，而无需针对特定类别进行训练。

SigLIP 2^[11]（2025）在 CLIP 基础上引入 Sigmoid Loss 和多语言支持，改善了密集特征的空间定位能力。EVA-CLIP-18B^[12]则将视觉编码器扩展到 180 亿参数，在 ImageNet 上达到 89.4% 零样本准确率，为下游密集预测任务提供了更强的视觉特征。

2.2 生成式 VLM：LLaVA / InternVL / Qwen-VL

生成式 VLM 将视觉编码器与大语言模型（LLM）桥接，实现视觉问答、图像描述、视觉推理等任务。LLaVA^[2]（2023）提出了简洁的 Visual Instruction Tuning 范式：冻结 CLIP ViT + 可学习 Projector + 冻结/微调 LLM，以极低成本实现多模态对话能力。

InternVL 系列^[3]从 InternVL 到 InternVL3.5，将视觉编码器从 ViT-6B 扩展到更大规模，并引入动态分辨率和 Pixel Shuffle 特征压缩，在多模态理解和推理上持续刷新 SOTA。Qwen2.5-VL^[13] 和 Qwen3-VL^[14] 进一步强化了视觉 Grounding 能力——Qwen2.5-VL 原生支持输出 bounding box 坐标，为与分割模型的集成提供了便利。

2.3 VLM 与分割的天然鸿沟

尽管生成式 VLM 已展现出强大的视觉理解能力，但它们存在一个根本性限制：输出空间是离散的文本 token，无法直接生成连续的分割掩码。弥合这一鸿沟的技术路线成为本综述的核心关注点。

  关键问题：如何让一个只能"说话"的模型学会"画出"精确的像素级边界？现有方案可大致归纳为三种范式：外部管线串联、中间特征对齐、端到端联合训练。

§3

通用分割模型（SAM 系列）基础

SAM → SAM 2 → SAM 3：从交互式到概念驱动

2023.04 — SAM

Segment Anything Model^[4]：Meta 发布，在 SA-1B（11M 图像、1B+ 掩码）上训练。核心设计是 Promptable Segmentation——接受点、框、粗糙掩码作为提示，输出高质量分割掩码。ViT-H 编码器 + 轻量 Mask Decoder 架构，实现了类别无关的通用分割能力。

2024.07 — SAM 2

Segment Anything in Images and Videos^[5]：将 SAM 扩展到视频域，引入 Memory Bank 和 Memory Attention 机制实现跨帧传播。在 SA-V（50K+ 视频、642K masklet）上训练，统一了图像和视频分割。SAM2Long^[15] 进一步通过 Training-Free Memory Tree 改善长视频场景下的性能。

2025.11 — SAM 3

Segment Anything with Concepts^[6]：引入概念提示（Concept Prompts）——文本短语或图像示例均可作为提示。通过 Presence Token 区分相近文本提示，Decoupled Detector-Tracker 架构实现检测与跟踪的解耦。在 SA-Co 基准上较现有系统提升 2 倍。SAM 3.1^[16]（2026.03）引入 Object Multiplex 实现多目标联合跟踪。

SAM 系列的核心局限：即使 SAM 3 引入了文本提示，其语义理解能力仍受限于短名词短语。对于需要上下文推理（如"最有可能导致交通事故的物体"）或多步推理的复杂语义查询，SAM 系列本身无法胜任——这正是 VLM 介入的价值所在。

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录

或

视觉语言模型与通用分割模型的协同从语义理解到像素级感知的统一框架综述

研究背景与动机

视觉语言模型（VLM）基础

通用分割模型（SAM 系列）基础

登录后阅读完整报告

视觉语言模型与通用分割模型的协同
从语义理解到像素级感知的统一框架综述