图像分割(Image Segmentation)是计算机视觉中最基础也最重要的任务之一,其目标是将图像中的像素划分为具有语义意义的区域。从 2015 年 Long 等人提出全卷积网络(FCN)[1]开始,深度学习驱动的图像分割技术经历了十余年的快速发展,衍生出语义分割、实例分割、全景分割、交互式分割、视频分割、3D 点云分割、医学图像分割、开放词汇分割等多个子方向。
本综述从八大核心任务出发,系统梳理每个方向的关键论文与里程碑模型,覆盖从经典 CNN 架构到 Transformer 时代的技术演进,并重点关注 2024-2026 年的最新突破——包括 SAM 2(统一图像与视频分割)[2]、SAM 3(概念驱动的可提示分割)[3]、OMG-Seg(单模型十任务统一)[4]、BiomedParse(九模态生物医学分割)[5]等。
语义分割:从 FCN 到 SegFormer
像素级分类的十年演进——FCN → DeepLab → PSPNet → SegFormer → Mask2Former
语义分割(Semantic Segmentation)的目标是为图像中每个像素分配一个类别标签,但不区分同一类别的不同实例。这是图像分割最基础的任务形式。
1.1 FCN:全卷积网络的开创之作(2015)
Long 等人在 2015 年提出的 Fully Convolutional Networks(FCN)[1]是深度学习语义分割的开山之作。FCN 的核心创新在于将分类网络(如 VGG、GoogLeNet)中的全连接层替换为卷积层,使网络可以接受任意尺寸的输入并输出对应尺寸的分割图。通过跳跃连接(skip connections)融合浅层和深层特征,FCN-8s 在 PASCAL VOC 2012 上达到 62.7% mIoU(test set),奠定了后续所有方法的架构基础。[6]
1.2 DeepLab 系列:空洞卷积与多尺度特征(2015-2018)
Google 的 DeepLab 系列[7]是语义分割领域影响力最大的工作之一,经历了四个版本的迭代:
- DeepLab v1(2015)引入空洞卷积(Atrous/Dilated Convolution)解决下采样导致的分辨率损失问题,结合条件随机场(CRF)后处理优化边界。
- DeepLab v2(2017)提出 ASPP(Atrous Spatial Pyramid Pooling),使用多个不同扩张率的空洞卷积并行捕获多尺度上下文信息。
- DeepLab v3(2017)改进 ASPP 模块,加入 Batch Normalization 和全局平均池化分支,移除 CRF 后处理。
- DeepLab v3+(2018)引入编码器-解码器结构,在解码阶段融合低层特征以恢复细节。ADE20K 上达到 45.7% mIoU(配合 Xception 骨干网络)。
1.3 U-Net 与 PSPNet(2015-2017)
U-Net(Ronneberger et al., 2015)[8]采用对称的编码器-解码器结构和跳跃连接,最初为生物医学图像分割设计,因其简洁有效的架构后来被广泛应用于各类分割任务。PSPNet(Zhao et al., 2017)[9]提出金字塔池化模块(Pyramid Pooling Module),通过四个不同尺度的池化操作聚合全局上下文信息,在 PASCAL VOC 2012 上首次突破 85% mIoU。
1.4 Transformer 时代:SegFormer 与 Mask2Former(2021-2022)
随着 Vision Transformer 的兴起,语义分割进入了新阶段。SegFormer(Xie et al., NeurIPS 2021)[10]提出层级化 Transformer 编码器,结合轻量级 MLP 解码器,在效率和精度之间取得出色平衡——SegFormer-B5 在 ADE20K 上达到 51.0% mIoU。Mask2Former(Cheng et al., CVPR 2022)[11]将 Masked Attention 引入 Transformer 解码器,通过约束交叉注意力仅在预测掩码区域内操作,在 ADE20K 语义分割上达到 57.7% mIoU,同时在实例和全景分割任务上也创下当时最佳记录。
| 模型 | 年份 | 核心创新 | ADE20K mIoU | 骨干网络 |
|---|---|---|---|---|
| FCN-8s | 2015 | 全卷积 + 跳跃连接 | 29.4% | VGG-16 |
| DeepLab v3+ | 2018 | ASPP + 编码器-解码器 | 45.7% | Xception-65 |
| PSPNet | 2017 | 金字塔池化模块 | 43.3% | ResNet-101 |
| SegFormer-B5 | 2021 | 层级化 ViT + MLP 解码器 | 51.0% | MiT-B5 |
| Mask2Former | 2022 | Masked Attention Transformer | 57.7% | Swin-L |
实例分割:从 Mask R-CNN 到 QueryInst
检测-分割、直接预测、查询驱动三大范式
实例分割(Instance Segmentation)在语义分割的基础上进一步区分同一类别的不同实例,需要为每个对象生成独立的掩码。
2.1 Mask R-CNN:两阶段基准线(2017)
Mask R-CNN(He et al., ICCV 2017)[12]在 Faster R-CNN 的基础上增加了一个并行的掩码预测分支,成为实例分割领域最经典的方法。其核心创新包括 RoIAlign(替代 RoIPool 解决量化误差)和解耦的分类-掩码预测。Mask R-CNN 在 COCO test-dev 上达到 37.1 mask AP(ResNet-101-FPN 骨干),长期作为实例分割的标准基准线。
2.2 SOLO 与 SOLOv2:基于位置的直接预测(2020)
SOLO(Wang et al., ECCV 2020)[13]提出了一种全新的范式——将实例分割转化为像素级的"实例类别"分类问题,根据每个像素在实例中的位置赋予其实例类别,完全抛弃了目标检测阶段。SOLOv2(NeurIPS 2020)进一步引入动态卷积核,让掩码预测头根据实例位置动态调整,在 COCO 上达到 41.7 AP(ResNet-101),精度与 Mask R-CNN 持平,速度更快。
2.3 QueryInst:查询驱动的并行掩码预测(2021)
QueryInst(Fang et al., ICCV 2021)[14]将查询(query)机制引入实例分割,利用对象查询在不同 stage 之间的一一对应关系实现并行掩码监督。QueryInst 采用 ResNet-101-FPN 骨干网络,在 COCO test-dev 上达到 48.1 box AP 和 42.8 mask AP,比 HTC(Hybrid Task Cascade)高出 2 个点,同时推理速度快 2.4 倍。
Mask R-CNN / Cascade Mask R-CNN / HTC
- 先检测后分割,精度高
- ROI 提取带来额外计算开销
- 长期作为工业界标准方案
SOLO / SOLOv2 / CondInst
- 无需目标检测阶段
- 基于位置或条件卷积直接生成掩码
- 简洁高效,易于部署
QueryInst / Mask2Former / Mask DINO
- 可学习的对象查询编码实例信息
- 端到端训练,无需 NMS 后处理
- 统一架构可同时处理多种分割任务