自 2019 年 ViLBERT 首次将双流 Transformer 引入视觉-语言预训练以来,多模态模型在短短六年间经历了多次范式跃迁。[1] 从 CLIP 的对比学习革命[2],到 LLaVA 开创的「视觉指令微调」范式[5],再到 Gemini 将所有模态纳入单一 Transformer 的原生架构[10],每一次架构变革都伴随着能力质变。
本报告以架构演进为主线,系统梳理多模态模型从早期融合、LLM 驱动、原生多模态、统一生成到音频/视频/具身等垂直模态的完整发展脉络,并对 GPT-4o、Gemini、Claude、Qwen-VL、InternVL 等主流模型进行横向架构对比,力求为研究者和从业者提供全景视角。
概述:多模态模型发展历程
从任务特定模型到通用多模态基础模型,六年间的四次范式跃迁
多模态学习(Multimodal Learning)的核心挑战在于如何让模型有效地表征和关联来自不同模态(文本、图像、音频、视频等)的信息。这一挑战催生了多种架构范式的更迭。[1]
早期融合架构:ViLBERT → CLIP → BLIP
从任务特定预训练到通用视觉-语言表征的三次突破
2.1 ViLBERT — 双流 Co-Attention 的先驱
ViLBERT(Vision-and-Language BERT)由 Lu 等人于 2019 年提出,是最早将 Transformer 架构应用于视觉-语言联合建模的工作之一。ViLBERT 采用双流架构(Two-Stream Architecture):一个 Transformer 流处理图像区域特征(来自 Faster R-CNN 提取的 Region Features),另一个处理文本 Token,二者通过Co-Attentional Transformer 层实现跨模态交互。[1]
ViLBERT 的 Co-Attention 机制使得每个模态的 Query 来自自身、Key 和 Value 来自另一模态,从而实现双向跨模态注意力。该工作在 VQA、视觉定位、图文检索等多个任务上取得了当时最佳成绩,确立了「预训练 + 微调」的多模态学习范式。[1]
2.2 CLIP — 对比学习的范式革命
CLIP(Contrastive Language-Image Pre-training)由 OpenAI 于 2021 年提出,使用 4 亿对从互联网收集的图文数据,通过对比学习训练了一对独立的图像编码器和文本编码器。[2]
CLIP 的架构出人意料地简洁:图像编码器采用修改版 ResNet-50 或 ViT(Vision Transformer),文本编码器采用 12 层 Transformer,训练目标仅为最大化匹配图文对的余弦相似度、最小化不匹配对的相似度。这种简单的对比目标使 CLIP 获得了强大的零样本迁移能力——无需微调即可在未见过的分类任务上取得与有监督模型可比的性能。[2]
- 对比学习目标替代传统分类/生成损失
- 4 亿互联网图文对的大规模训练
- 零样本迁移能力(Zero-shot Transfer)
- 图像编码器成为后续多模态模型的标配
- LLaVA/InternVL/Qwen-VL 均采用 CLIP ViT 作为视觉编码器
- SigLIP / SigLIP 2 优化 Sigmoid Loss 并增强定位与稠密特征[26]
- EVA-CLIP 引入 masked image modeling 进一步增强表征
- 衍生出 DALL-E、Stable Diffusion 的文本条件生成范式
2.3 BLIP / BLIP-2 — 统一目标与桥接模块
BLIP(Bootstrapping Language-Image Pre-training)由 Salesforce 于 2022 年提出,其核心贡献是多模态混合编码器-解码器(MED)架构,将对比学习、图文匹配和语言生成三种训练目标统一到单一模型中。[3]
2023 年发布的 BLIP-2 进一步引入了 Q-Former(Querying Transformer)——一个轻量级的 12 层 Transformer 编码器,作为冻结的图像编码器与冻结的大语言模型之间的桥接模块。Q-Former 使用一组可学习的 Query Token,通过两阶段预训练从图像编码器中提取与文本最相关的视觉特征,然后将其转化为 LLM 可以理解的输入。BLIP-2 以仅 188M 可训练参数(不到 Flamingo 80B 的 54 分之一),在零样本 VQAv2 上超过 Flamingo80B 达 8.7%。[4]
大语言模型驱动的多模态:LLaVA → InternVL → Qwen-VL
以 LLM 为核心,视觉编码器为感知前端——当前开源多模态模型的主流范式
2023–2024 年间,多模态模型的主流架构收敛为一种简洁而有效的三段式结构:视觉编码器 → 桥接模块 → 大语言模型(ViT-Bridge-LLM)。视觉编码器负责将图像/视频转化为视觉 Token,桥接模块(MLP/Cross-Attention/Q-Former)将视觉 Token 映射到 LLM 的嵌入空间,LLM 则承担推理和生成任务。[5]
3.1 LLaVA — 视觉指令微调的开创者
LLaVA(Large Language and Vision Assistant)由 Liu 等人于 2023 年提出,开创了视觉指令微调(Visual Instruction Tuning)范式。[5] LLaVA 的架构极其简洁:将 CLIP ViT-L/14 作为视觉编码器,通过一个简单的线性投影层(后升级为 2 层 MLP)将视觉 Token 映射到 Vicuna(基于 LLaMA 的指令微调模型)的嵌入空间,然后与文本 Token 拼接后送入 LLM 进行自回归生成。
LLaVA 的关键洞察在于:利用 GPT-4 生成高质量的视觉-语言指令数据(约 158K 条),可以有效地将 LLM 的指令跟随能力迁移到多模态场景。这一方法论催生了大量后续工作:LLaVA-1.5(2023)增大训练数据并支持高分辨率输入;LLaVA-NeXT(2024)引入动态分辨率和更强的视频理解能力;LLaVA-Video(2024)专注于视频指令微调,其 72B 版本性能接近 Gemini-1.5-Flash。[5]
3.2 InternVL — 开源多模态的标杆
InternVL(由上海 AI Lab / OpenGVLab 开发)是目前开源社区最具影响力的多模态模型系列之一。InternVL 系列始终沿用 ViT-MLP-LLM 三段式架构,核心优势在于其自研的视觉编码器 InternViT-6B(60 亿参数,远大于 CLIP ViT-L 的 3 亿参数),以及精心设计的训练策略。[6]
InternVL 2.5(2024 年 12 月)进一步优化了动态分辨率策略:将输入图像按宽高比划分为 448×448 的 Tile,每个 Tile 经过 Pixel Unshuffle 操作将视觉 Token 从 1024 压缩到 256 个,大幅降低了计算成本。[6]
2025 年发布的 InternVL3(PaperScope 308 upvotes)引入两项关键创新:Variable Visual Position Encoding (V2PE) 使用更精细的视觉 Token 位置增量,以及原生多模态预训练——将语言预训练和多模态对齐训练合并为统一的预训练阶段。[34] 最新的 InternVL3.5(PaperScope 217 upvotes)进一步提出 Visual Resolution Router (ViR) 动态选择视觉 Token 的最优分辨率以降低推理成本,以及 Decoupled Vision-Language Deployment (DvD) 将 ViT 和 LLM 部署在独立 GPU 上,平衡计算负载、降低多模态 prefilling 延迟。此外,InternVL3.5 引入 Cascade RL(级联强化学习),带来约 16% 的推理性能提升。InternVL3.5-241B-A28B 在开源多模态模型中达到最优水平。[35]
3.3 Qwen-VL — 从分辨率到全模态的持续进化
Qwen-VL(由阿里巴巴通义团队开发)是中国 AI 社区最重要的开源多模态模型系列之一。初代 Qwen-VL(2023)基于 Qwen-7B 语言模型,通过 Position-aware Vision-Language Adapter 桥接 ViT 和 LLM。[7]
Qwen2.5-VL(2025 年 1 月发布)带来了多项架构创新:在 ViT 中引入窗口注意力(Window Attention)提升训练和推理速度;使用 SwiGLU 激活函数和 RMSNorm 优化 ViT 架构;以及引入 Interleaved-MRoPE 实现时间/宽度/高度维度的完整频率分配。[7]
最新的 Qwen3-VL(2025)提供 Dense(2B/4B/8B/32B)和 MoE(30B-A3B/235B-A22B)两种规格,支持长达 256K Token 的交错文本-图像-视频上下文;后续的 Qwen3-VL 进一步引入 DeepStack 机制融合多层 ViT 特征以增强视觉-语言对齐。[8]
| 模型 | 视觉编码器 | 桥接模块 | LLM | 关键特性 |
|---|---|---|---|---|
| LLaVA-1.5 | CLIP ViT-L/14 | 2 层 MLP | Vicuna 13B | 视觉指令微调 |
| InternVL 2.5 | InternViT-6B | 2 层 MLP | InternLM2 系列 | 动态分辨率 + Pixel Unshuffle |
| Qwen2.5-VL | ViT + Window Attn | MLP + DeepStack | Qwen2.5 系列 | MRoPE + 多层特征融合 |
| BLIP-2 | EVA-CLIP ViT-G | Q-Former (12 层) | FlanT5 / OPT | 冻结双端 + 轻量桥接 |
| Flamingo | NFNet-F6 | Perceiver Resampler | Chinchilla 70B | 少样本 In-context Learning |
| GLM-4.1V-Thinking | ViT | MLP | GLM-4 9B | RLCS 多模态推理[27] |
| SmolVLM | SigLIP | Projector | SmolLM 256M–2.2B | 极低内存 (<1GB)[28] |
3.4 新兴模型:GLM-4.1V-Thinking 与 SmolVLM
GLM-4.1V-Thinking(智谱 AI,2025)提出了 Reinforcement Learning with Curriculum Sampling (RLCS) 方法,在 STEM 推理、视频理解、GUI Agent、长文档解析等多任务上显著提升了多模态推理能力。GLM-4.1V-9B-Thinking 仅 9B 参数即在 28 个公开基准中的 18 个上达到或超过 Qwen2.5-VL-72B 的水平,在长文档理解和 STEM 推理等任务上甚至与 GPT-4o 竞争。[27]
SmolVLM(Hugging Face,2025 年 4 月)则从效率端切入,系统探索了面向低计算开销的架构配置、分词策略和数据筛选方案。最小的 SmolVLM-256M 推理时 GPU 显存占用不到 1GB,却超越了参数量大 300 倍的 Idefics-80B;最大的 2.2B 版本可与消耗两倍 GPU 显存的主流 VLM 抗衡。所有权重以 Apache 2.0 协议完全开源。[28]
- RLCS 课程采样强化学习
- 9B 参数对标 72B 级别性能
- STEM/视频/GUI/长文档全面提升
- 后续 GLM-4.5V / GLM-4.6V 持续演进
- 256M–2.2B 三种超紧凑规格
- 256M 版本 <1GB 显存推理
- 图像 + 视频双模态支持
- Apache 2.0 完全开源