图像分割与机器视觉学术研究进展：从 FCN 到 SAM 3 的完整技术图谱

核心观察：图像分割正经历从"任务特化"到"通用基础模型"的范式转变。以 Meta 的 SAM 系列为代表，基础模型（Foundation Model）正在统一语义、实例、全景、视频、3D 等多种分割任务，而开放词汇能力的引入使分割模型从封闭类别走向开放世界理解。

图像分割（Image Segmentation）是计算机视觉中最基础也最重要的任务之一，其目标是将图像中的像素划分为具有语义意义的区域。从 2015 年 Long 等人提出全卷积网络（FCN）^[1]开始，深度学习驱动的图像分割技术经历了十余年的快速发展，衍生出语义分割、实例分割、全景分割、交互式分割、视频分割、3D 点云分割、医学图像分割、开放词汇分割等多个子方向。

本综述从八大核心任务出发，系统梳理每个方向的关键论文与里程碑模型，覆盖从经典 CNN 架构到 Transformer 时代的技术演进，并重点关注 2024-2026 年的最新突破——包括 SAM 2（统一图像与视频分割）^[2]、SAM 3（概念驱动的可提示分割）^[3]、OMG-Seg（单模型十任务统一）^[4]、BiomedParse（九模态生物医学分割）^[5]等。

§1

语义分割：从 FCN 到 SegFormer

像素级分类的十年演进——FCN → DeepLab → PSPNet → SegFormer → Mask2Former

语义分割（Semantic Segmentation）的目标是为图像中每个像素分配一个类别标签，但不区分同一类别的不同实例。这是图像分割最基础的任务形式。

1.1 FCN：全卷积网络的开创之作（2015）

Long 等人在 2015 年提出的 Fully Convolutional Networks（FCN）^[1]是深度学习语义分割的开山之作。FCN 的核心创新在于将分类网络（如 VGG、GoogLeNet）中的全连接层替换为卷积层，使网络可以接受任意尺寸的输入并输出对应尺寸的分割图。通过跳跃连接（skip connections）融合浅层和深层特征，FCN-8s 在 PASCAL VOC 2012 上达到 62.7% mIoU（test set），奠定了后续所有方法的架构基础。^[6]

1.2 DeepLab 系列：空洞卷积与多尺度特征（2015-2018）

Google 的 DeepLab 系列^[7]是语义分割领域影响力最大的工作之一，经历了四个版本的迭代：

v1
DeepLab v1（2015）
引入空洞卷积（Atrous/Dilated Convolution）解决下采样导致的分辨率损失问题，结合条件随机场（CRF）后处理优化边界。
v2
DeepLab v2（2017）
提出 ASPP（Atrous Spatial Pyramid Pooling），使用多个不同扩张率的空洞卷积并行捕获多尺度上下文信息。
v3
DeepLab v3（2017）
改进 ASPP 模块，加入 Batch Normalization 和全局平均池化分支，移除 CRF 后处理。
v3+
DeepLab v3+（2018）
引入编码器-解码器结构，在解码阶段融合低层特征以恢复细节。ADE20K 上达到 45.7% mIoU（配合 Xception 骨干网络）。

1.3 U-Net 与 PSPNet（2015-2017）

U-Net（Ronneberger et al., 2015）^[8]采用对称的编码器-解码器结构和跳跃连接，最初为生物医学图像分割设计，因其简洁有效的架构后来被广泛应用于各类分割任务。PSPNet（Zhao et al., 2017）^[9]提出金字塔池化模块（Pyramid Pooling Module），通过四个不同尺度的池化操作聚合全局上下文信息，在 PASCAL VOC 2012 上首次突破 85% mIoU。

1.4 Transformer 时代：SegFormer 与 Mask2Former（2021-2022）

随着 Vision Transformer 的兴起，语义分割进入了新阶段。SegFormer（Xie et al., NeurIPS 2021）^[10]提出层级化 Transformer 编码器，结合轻量级 MLP 解码器，在效率和精度之间取得出色平衡——SegFormer-B5 在 ADE20K 上达到 51.0% mIoU。Mask2Former（Cheng et al., CVPR 2022）^[11]将 Masked Attention 引入 Transformer 解码器，通过约束交叉注意力仅在预测掩码区域内操作，在 ADE20K 语义分割上达到 57.7% mIoU，同时在实例和全景分割任务上也创下当时最佳记录。

模型	年份	核心创新	ADE20K mIoU	骨干网络
FCN-8s	2015	全卷积 + 跳跃连接	29.4%	VGG-16
DeepLab v3+	2018	ASPP + 编码器-解码器	45.7%	Xception-65
PSPNet	2017	金字塔池化模块	43.3%	ResNet-101
SegFormer-B5	2021	层级化 ViT + MLP 解码器	51.0%	MiT-B5
Mask2Former	2022	Masked Attention Transformer	57.7%	Swin-L

§2

实例分割：从 Mask R-CNN 到 QueryInst

检测-分割、直接预测、查询驱动三大范式

实例分割（Instance Segmentation）在语义分割的基础上进一步区分同一类别的不同实例，需要为每个对象生成独立的掩码。

2.1 Mask R-CNN：两阶段基准线（2017）

Mask R-CNN（He et al., ICCV 2017）^[12]在 Faster R-CNN 的基础上增加了一个并行的掩码预测分支，成为实例分割领域最经典的方法。其核心创新包括 RoIAlign（替代 RoIPool 解决量化误差）和解耦的分类-掩码预测。Mask R-CNN 在 COCO test-dev 上达到 37.1 mask AP（ResNet-101-FPN 骨干），长期作为实例分割的标准基准线。

2.2 SOLO 与 SOLOv2：基于位置的直接预测（2020）

SOLO（Wang et al., ECCV 2020）^[13]提出了一种全新的范式——将实例分割转化为像素级的"实例类别"分类问题，根据每个像素在实例中的位置赋予其实例类别，完全抛弃了目标检测阶段。SOLOv2（NeurIPS 2020）进一步引入动态卷积核，让掩码预测头根据实例位置动态调整，在 COCO 上达到 41.7 AP（ResNet-101），精度与 Mask R-CNN 持平，速度更快。

2.3 QueryInst：查询驱动的并行掩码预测（2021）

QueryInst（Fang et al., ICCV 2021）^[14]将查询（query）机制引入实例分割，利用对象查询在不同 stage 之间的一一对应关系实现并行掩码监督。QueryInst 采用 ResNet-101-FPN 骨干网络，在 COCO test-dev 上达到 48.1 box AP 和 42.8 mask AP，比 HTC（Hybrid Task Cascade）高出 2 个点，同时推理速度快 2.4 倍。

两阶段范式

Mask R-CNN / Cascade Mask R-CNN / HTC

先检测后分割，精度高
ROI 提取带来额外计算开销
长期作为工业界标准方案

直接预测范式

SOLO / SOLOv2 / CondInst

无需目标检测阶段
基于位置或条件卷积直接生成掩码
简洁高效，易于部署

查询驱动范式

QueryInst / Mask2Former / Mask DINO

可学习的对象查询编码实例信息
端到端训练，无需 NMS 后处理
统一架构可同时处理多种分割任务

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录

或

图像分割与机器视觉学术研究进展从 FCN 到 SAM 3 的完整技术图谱