多模态统一模型架构与结构发展全面综述

核心论断：多模态模型的架构演进正从「模态拼接」走向「原生融合」。2020–2023 年的主流方案是将预训练视觉编码器与语言模型通过桥接模块（如 Q-Former、MLP Projector）拼接；2024 年起，以 Gemini、GPT-4o 为代表的原生多模态架构——所有模态在统一 Token 空间中从头联合训练——正在成为前沿方向。与此同时，Chameleon、Janus、Show-o 等统一理解-生成架构的出现，标志着多模态模型正从「理解为主」向「理解+生成一体化」迈进。

自 2019 年 ViLBERT 首次将双流 Transformer 引入视觉-语言预训练以来，多模态模型在短短六年间经历了多次范式跃迁。^[1] 从 CLIP 的对比学习革命^[2]，到 LLaVA 开创的「视觉指令微调」范式^[5]，再到 Gemini 将所有模态纳入单一 Transformer 的原生架构^[10]，每一次架构变革都伴随着能力质变。

本报告以架构演进为主线，系统梳理多模态模型从早期融合、LLM 驱动、原生多模态、统一生成到音频/视频/具身等垂直模态的完整发展脉络，并对 GPT-4o、Gemini、Claude、Qwen-VL、InternVL 等主流模型进行横向架构对比，力求为研究者和从业者提供全景视角。

§1

概述：多模态模型发展历程

从任务特定模型到通用多模态基础模型，六年间的四次范式跃迁

多模态学习（Multimodal Learning）的核心挑战在于如何让模型有效地表征和关联来自不同模态（文本、图像、音频、视频等）的信息。这一挑战催生了多种架构范式的更迭。^[1]

2019–2020

双流/单流预训练时代：ViLBERT^[1]、UNITER、VisualBERT 等模型将视觉区域特征与文本 Token 通过 Transformer 融合，开创视觉-语言预训练（VLP）范式。

2021–2022

对比学习革命：CLIP^[2] 和 ALIGN 证明简单的图文对比学习即可产生强大的跨模态表征，BLIP^[3] 进一步统一了对比/匹配/生成三种目标。

2023–2024

LLM 驱动的多模态：Flamingo^[4b]、BLIP-2^[4]、LLaVA^[5]、InternVL^[6]、Qwen-VL^[7] 将视觉编码器接入强大的 LLM，充分利用语言模型的推理能力。

2024–2026

原生多模态与统一生成：Gemini^[10]、GPT-4o^[9]、Llama 4^[12] 实现原生多模态预训练；Chameleon^[13]、Janus^[14]、Show-o^[15] 将理解与生成统一于单一模型。

架构范式

模态类型

10M

最长上下文（Llama 4 Scout）

2T+

最大模型参数

架构演进的核心趋势：从「后融合」（Late Fusion，各模态独立编码后拼接）到「早融合」（Early Fusion，所有模态在统一 Token 空间中联合处理）；从「仅理解」（只能接收多模态输入）到「理解+生成」（既能理解也能生成多种模态内容）。

§2

早期融合架构：ViLBERT → CLIP → BLIP

从任务特定预训练到通用视觉-语言表征的三次突破

2.1 ViLBERT — 双流 Co-Attention 的先驱

ViLBERT（Vision-and-Language BERT）由 Lu 等人于 2019 年提出，是最早将 Transformer 架构应用于视觉-语言联合建模的工作之一。ViLBERT 采用双流架构（Two-Stream Architecture）：一个 Transformer 流处理图像区域特征（来自 Faster R-CNN 提取的 Region Features），另一个处理文本 Token，二者通过Co-Attentional Transformer 层实现跨模态交互。^[1]

📸

Region Features

Faster R-CNN

→

⚙

Vision Transformer

独立编码

↔

🔄
Co-Attention
跨模态交互

↔

📝

Text Transformer

独立编码

ViLBERT 的 Co-Attention 机制使得每个模态的 Query 来自自身、Key 和 Value 来自另一模态，从而实现双向跨模态注意力。该工作在 VQA、视觉定位、图文检索等多个任务上取得了当时最佳成绩，确立了「预训练 + 微调」的多模态学习范式。^[1]

ViLBERT 的历史意义：ViLBERT 证明了 Transformer 的多头注意力机制可以有效地建模跨模态关联，为后续 UNITER、OSCAR、VinVL 等单流/双流模型奠定了基础。其局限在于依赖预训练目标检测器提取区域特征，计算开销大且信息瓶颈明显。^[1]

2.2 CLIP — 对比学习的范式革命

CLIP（Contrastive Language-Image Pre-training）由 OpenAI 于 2021 年提出，使用 4 亿对从互联网收集的图文数据，通过对比学习训练了一对独立的图像编码器和文本编码器。^[2]

CLIP 的架构出人意料地简洁：图像编码器采用修改版 ResNet-50 或 ViT（Vision Transformer），文本编码器采用 12 层 Transformer，训练目标仅为最大化匹配图文对的余弦相似度、最小化不匹配对的相似度。这种简单的对比目标使 CLIP 获得了强大的零样本迁移能力——无需微调即可在未见过的分类任务上取得与有监督模型可比的性能。^[2]

🌱CLIP 核心创新

对比学习目标替代传统分类/生成损失
4 亿互联网图文对的大规模训练
零样本迁移能力（Zero-shot Transfer）
图像编码器成为后续多模态模型的标配

📈深远影响

LLaVA/InternVL/Qwen-VL 均采用 CLIP ViT 作为视觉编码器
SigLIP / SigLIP 2 优化 Sigmoid Loss 并增强定位与稠密特征^[26]
EVA-CLIP 引入 masked image modeling 进一步增强表征
衍生出 DALL-E、Stable Diffusion 的文本条件生成范式

SigLIP 2（Google，2025）：SigLIP 以 Sigmoid Loss 替代 CLIP 的 Softmax 对比损失，消除了对大 batch size 的依赖。2025 年 2 月发布的 SigLIP 2 在此基础上融合了 captioning 预训练、自监督损失（自蒸馏 + Masked Prediction）和在线数据筛选，在零样本分类、图文检索和 VLM 视觉表征提取上全面超越初代 SigLIP，同时在定位和稠密预测任务上取得显著提升。提供 ViT-B（86M）到 ViT-g（1B）四种规格。^[26]

2.3 BLIP / BLIP-2 — 统一目标与桥接模块

BLIP（Bootstrapping Language-Image Pre-training）由 Salesforce 于 2022 年提出，其核心贡献是多模态混合编码器-解码器（MED）架构，将对比学习、图文匹配和语言生成三种训练目标统一到单一模型中。^[3]

2023 年发布的 BLIP-2 进一步引入了 Q-Former（Querying Transformer）——一个轻量级的 12 层 Transformer 编码器，作为冻结的图像编码器与冻结的大语言模型之间的桥接模块。Q-Former 使用一组可学习的 Query Token，通过两阶段预训练从图像编码器中提取与文本最相关的视觉特征，然后将其转化为 LLM 可以理解的输入。BLIP-2 以仅 188M 可训练参数（不到 Flamingo 80B 的 54 分之一），在零样本 VQAv2 上超过 Flamingo80B 达 8.7%。^[4]

📷

Image Encoder

冻结 ViT

→

🔎
Q-Former
可学习 Query

→

🤖

Frozen LLM

FlanT5 / OPT

BLIP-2 的桥接范式：Q-Former 的设计思想——用轻量级可训练模块连接冻结的视觉编码器和冻结的 LLM——成为后续多模态模型的重要启发。LLaVA 简化为 MLP Projector，InternVL 采用 2 层 MLP，各自在复杂度和效果之间做出不同权衡。^[4]

§3

大语言模型驱动的多模态：LLaVA → InternVL → Qwen-VL

以 LLM 为核心，视觉编码器为感知前端——当前开源多模态模型的主流范式

2023–2024 年间，多模态模型的主流架构收敛为一种简洁而有效的三段式结构：视觉编码器 → 桥接模块 → 大语言模型（ViT-Bridge-LLM）。视觉编码器负责将图像/视频转化为视觉 Token，桥接模块（MLP/Cross-Attention/Q-Former）将视觉 Token 映射到 LLM 的嵌入空间，LLM 则承担推理和生成任务。^[5]

3.1 LLaVA — 视觉指令微调的开创者

LLaVA（Large Language and Vision Assistant）由 Liu 等人于 2023 年提出，开创了视觉指令微调（Visual Instruction Tuning）范式。^[5] LLaVA 的架构极其简洁：将 CLIP ViT-L/14 作为视觉编码器，通过一个简单的线性投影层（后升级为 2 层 MLP）将视觉 Token 映射到 Vicuna（基于 LLaMA 的指令微调模型）的嵌入空间，然后与文本 Token 拼接后送入 LLM 进行自回归生成。

LLaVA 的关键洞察在于：利用 GPT-4 生成高质量的视觉-语言指令数据（约 158K 条），可以有效地将 LLM 的指令跟随能力迁移到多模态场景。这一方法论催生了大量后续工作：LLaVA-1.5（2023）增大训练数据并支持高分辨率输入；LLaVA-NeXT（2024）引入动态分辨率和更强的视频理解能力；LLaVA-Video（2024）专注于视频指令微调，其 72B 版本性能接近 Gemini-1.5-Flash。^[5]

3.2 InternVL — 开源多模态的标杆

InternVL（由上海 AI Lab / OpenGVLab 开发）是目前开源社区最具影响力的多模态模型系列之一。InternVL 系列始终沿用 ViT-MLP-LLM 三段式架构，核心优势在于其自研的视觉编码器 InternViT-6B（60 亿参数，远大于 CLIP ViT-L 的 3 亿参数），以及精心设计的训练策略。^[6]

InternVL 2.5（2024 年 12 月）进一步优化了动态分辨率策略：将输入图像按宽高比划分为 448×448 的 Tile，每个 Tile 经过 Pixel Unshuffle 操作将视觉 Token 从 1024 压缩到 256 个，大幅降低了计算成本。^[6]

2025 年发布的 InternVL3（PaperScope 308 upvotes）引入两项关键创新：Variable Visual Position Encoding (V2PE) 使用更精细的视觉 Token 位置增量，以及原生多模态预训练——将语言预训练和多模态对齐训练合并为统一的预训练阶段。^[34] 最新的 InternVL3.5（PaperScope 217 upvotes）进一步提出 Visual Resolution Router (ViR) 动态选择视觉 Token 的最优分辨率以降低推理成本，以及 Decoupled Vision-Language Deployment (DvD) 将 ViT 和 LLM 部署在独立 GPU 上，平衡计算负载、降低多模态 prefilling 延迟。此外，InternVL3.5 引入 Cascade RL（级联强化学习），带来约 16% 的推理性能提升。InternVL3.5-241B-A28B 在开源多模态模型中达到最优水平。^[35]

3.3 Qwen-VL — 从分辨率到全模态的持续进化

Qwen-VL（由阿里巴巴通义团队开发）是中国 AI 社区最重要的开源多模态模型系列之一。初代 Qwen-VL（2023）基于 Qwen-7B 语言模型，通过 Position-aware Vision-Language Adapter 桥接 ViT 和 LLM。^[7]

Qwen2.5-VL（2025 年 1 月发布）带来了多项架构创新：在 ViT 中引入窗口注意力（Window Attention）提升训练和推理速度；使用 SwiGLU 激活函数和 RMSNorm 优化 ViT 架构；以及引入 Interleaved-MRoPE 实现时间/宽度/高度维度的完整频率分配。^[7]

最新的 Qwen3-VL（2025）提供 Dense（2B/4B/8B/32B）和 MoE（30B-A3B/235B-A22B）两种规格，支持长达 256K Token 的交错文本-图像-视频上下文；后续的 Qwen3-VL 进一步引入 DeepStack 机制融合多层 ViT 特征以增强视觉-语言对齐。^[8]

模型	视觉编码器	桥接模块	LLM	关键特性
LLaVA-1.5	CLIP ViT-L/14	2 层 MLP	Vicuna 13B	视觉指令微调
InternVL 2.5	InternViT-6B	2 层 MLP	InternLM2 系列	动态分辨率 + Pixel Unshuffle
Qwen2.5-VL	ViT + Window Attn	MLP + DeepStack	Qwen2.5 系列	MRoPE + 多层特征融合
BLIP-2	EVA-CLIP ViT-G	Q-Former (12 层)	FlanT5 / OPT	冻结双端 + 轻量桥接
Flamingo	NFNet-F6	Perceiver Resampler	Chinchilla 70B	少样本 In-context Learning
GLM-4.1V-Thinking	ViT	MLP	GLM-4 9B	RLCS 多模态推理^[27]
SmolVLM	SigLIP	Projector	SmolLM 256M–2.2B	极低内存 (<1GB)^[28]

3.4 新兴模型：GLM-4.1V-Thinking 与 SmolVLM

GLM-4.1V-Thinking（智谱 AI，2025）提出了 Reinforcement Learning with Curriculum Sampling (RLCS) 方法，在 STEM 推理、视频理解、GUI Agent、长文档解析等多任务上显著提升了多模态推理能力。GLM-4.1V-9B-Thinking 仅 9B 参数即在 28 个公开基准中的 18 个上达到或超过 Qwen2.5-VL-72B 的水平，在长文档理解和 STEM 推理等任务上甚至与 GPT-4o 竞争。^[27]

SmolVLM（Hugging Face，2025 年 4 月）则从效率端切入，系统探索了面向低计算开销的架构配置、分词策略和数据筛选方案。最小的 SmolVLM-256M 推理时 GPU 显存占用不到 1GB，却超越了参数量大 300 倍的 Idefics-80B；最大的 2.2B 版本可与消耗两倍 GPU 显存的主流 VLM 抗衡。所有权重以 Apache 2.0 协议完全开源。^[28]

🧠GLM-4.1V-Thinking 亮点

RLCS 课程采样强化学习
9B 参数对标 72B 级别性能
STEM/视频/GUI/长文档全面提升
后续 GLM-4.5V / GLM-4.6V 持续演进

🔬SmolVLM 亮点

256M–2.2B 三种超紧凑规格
256M 版本 <1GB 显存推理
图像 + 视频双模态支持
Apache 2.0 完全开源

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录

或

多模态统一模型架构结构发展全面综述