HF 论文周报 · Weekly Digest

HF论文周报 W13 | 扩散OCR颠覆序列解码、万亿参数科学大模型开源、Meta自改进Agent、音视频统一生成新范式

2026.03.22 — 03.28 · 163 篇论文 · 10 篇深度解读

2026.03.2203.28
163 篇论文,10 篇深度解读
Top 1: 124 votes
PaperScope Editorial
周度 Insight:本周论文的核心叙事是「范式替代」。扩散模型不再只生成图像——MinerU-Diffusion 用它替代 OCR 的自回归解码,3.2 倍加速;视频生成不再需要多流架构——daVinci-MagiHuman 证明单流 Transformer 可以同时生成音频和视频;RL 训练不再局限于文本——Astrolabe 将其推入视频模型的蒸馏校正。当每个子领域都在寻找更简洁高效的替代路径时,复杂度本身正在成为被优化的对象

本周(3月22日 — 28日)HuggingFace 共收录 163 篇论文,较上周略有回落,但高票论文密度显著提升(Top 10 均超 84 票),三条研究主线尤为突出。

第一条主线:生成范式简化——用扩散/单流替代复杂管线。MinerU-Diffusion(124票)用扩散解码替代自回归 OCR,3.2 倍加速;daVinci-MagiHuman(114票)用单流 Transformer 统一音视频生成,5 秒视频 2 秒生成;Calibri(44票)揭示 DiT 隐藏潜力,参数高效校准即可大幅提升生成质量。复杂管线正在被更简洁的替代方案取代。

第二条主线:世界模型与交互智能的评估体系成形。Omni-WorldBench(122票)首次系统评估 18 个世界模型的交互响应能力;WildWorld(84票)用 1.08 亿帧 ARPG 游戏数据构建动作-状态对齐基准;CUA-Suite(85票)为桌面 Agent 提供 55 小时人类操作视频。三篇论文联合补全了世界模型从数据到评估的完整链条。

第三条主线:Agent 自改进与形式化推理的突破。Meta Hyperagents(35票)实现了能改进自身改进机制的元认知 Agent;LongCat-Flash-Prover(74票)用 560B MoE 刷新 Lean4 形式化推理 SOTA;OpenResearcher(88票)完全开源深度研究 Agent 管线,BrowseComp-Plus 超越 GPT-4.1。Agent 正从"工具使用者"进化为"自我改进者"。

速览目录 · Top 20 本周热榜

# 论文 领域 日期 Votes 一句话
1MinerU-DiffusionOCR/扩散03-25124扩散解码替代自回归OCR,3.2倍加速+更强鲁棒性
2Omni-WorldBench世界模型03-24122首个交互驱动世界模型评估基准,18模型全面测评
3daVinci-MagiHuman音视频生成03-24114单流15B Transformer统一音视频生成,5秒视频2秒出
4Astrolabe视频RL03-23104前向过程RL校正蒸馏视频模型,无需反向展开
5HopChainVLM/推理03-23104多跳数据合成驱动VLM视觉推理,Qwen3.5 24项基准20项提升
6PixelSmile图像编辑03-27102连续可控的细粒度面部表情编辑,解决语义重叠
7Intern-S1-Pro科学大模型03-2794万亿参数科学多模态基础模型,512专家开源
8OpenResearcherAgent/研究03-2488全开源深度研究Agent,BrowseComp-Plus超越GPT-4.1
9CUA-SuiteAgent/GUI03-268555小时人类操作视频+360万UI标注的桌面Agent基准
10AwaResVLM效率03-2484按需检索高分辨率区域,VLM准确率-效率兼得
11WildWorld世界模型03-25841.08亿帧ARPG游戏数据集,动作-状态显式对齐
12LongCat-Flash-Prover形式推理03-2474560B MoE刷新MiniF2F-Test 97.1%,Lean4形式推理SOTA
13SpecEyesAgent加速03-2557投机感知+规划加速Agentic多模态LLM推理
14Workflow SurveyAgent/综述03-2551LLM Agent工作流优化综述:静态模板到动态运行时图
15VideoDetective视频理解03-2449外部查询+内在关联双线索的长视频理解
16TerraScope遥感VLM03-2348像素级视觉推理赋能地球观测
17DA-Flow光流估计03-2547退化感知扩散光流估计,真实世界鲁棒性大幅提升
18SpatialBoost视觉表征03-2444语言引导增强视觉表征的空间推理能力
19Calibri图像生成03-2744参数高效校准释放DiT隐藏生成潜力
20GeoFoundation-NVS3D/NVS03-2443几何基础模型复用于多视角扩散
01 / 10

MinerU-Diffusion:用扩散解码重构文档 OCR——3.2 倍加速、并行推理、开源 2.5B 模型

124 upvotes OCR/扩散 · OpenDataLab · 03-25

文档 OCR 已从单行识别进化到包含表格、公式、版面的结构化文档解析,但主流方案仍依赖自回归序列解码。MinerU-Diffusion 提出了一个根本性的范式转换:OCR 不是序列生成问题,而是逆渲染问题——从文档图像反向恢复其底层 Markdown/JSON 结构,天然适合并行扩散解码。

核心创新:采用块级扩散解码器(Block-wise Diffusion Decoder)替代自回归逐 token 生成,配合不确定性驱动的课程学习策略实现稳定训练。扩散解码在每个去噪步骤中同时预测整个输出块,彻底消除了顺序依赖。

3.2x
解码加速(vs 自回归基线)
2.5B
模型参数量(完全开源)
MIT
开源协议

项目在 MIT 协议下开源,提供三种推理后端和端到端解析管线。在长文档场景下优势更加明显——自回归解码的误差传播问题在长序列中被严重放大,而扩散解码天然并行,长度增加不会指数累积错误。

编辑解读「左到右」是排字时代的遗产,不是 OCR 的本质。当扩散模型证明可以并行「渲染出」文档结构时,自回归 OCR 的最后一个优势——简单训练——也在课程学习面前不再独特。这可能是文档 AI 管线的拐点。
02 / 10

Omni-WorldBench:18 个世界模型的交互能力大考——首个系统性 4D 交互评估基准

122 upvotes 世界模型/评测 · AMAP-ML · 03-24

视频世界模型正沿两条路线发展:视频生成和 3D 重建。但现有评估要么只看视觉保真度和文本对齐(生成方向),要么只看静态 3D 重建指标(忽略时序动态)。没有基准系统性评估世界模型最关键的维度——交互响应能力

Omni-WorldBench 包含两大组件:Omni-WorldSuite(410 个涵盖不同交互层级和场景类型的系统化 prompt 集);Omni-Metrics(基于 Agent 的评估框架,通过测量交互动作对最终结果和中间状态演化轨迹的因果影响来量化世界建模能力)。

18
评估的世界模型数量
15
跨 3 个维度的评估指标
410
系统化测试 prompt 数

跨 3 个维度的 15 项指标全面覆盖:生成视频质量、交互效果保真度、相机和物体可控性。分析揭示当前世界模型在交互响应方面存在关键局限,为未来研究提供了可行的改进方向。

编辑解读世界模型不只是"画视频"——它需要理解"如果我按下按钮,世界会怎样变化"。Omni-WorldBench 把这个核心能力变成了可测量的指标,这对整个世界模型社区的研究方向会有深远影响。
03 / 10

daVinci-MagiHuman:单流 15B Transformer 统一音视频生成——5 秒 1080p 视频 38 秒完成

114 upvotes 音视频生成 · GAIR-NLP · 03-24

音视频联合生成通常需要复杂的多流架构或交叉注意力机制。daVinci-MagiHuman 证明了一个极简方案:将文本、视频和音频 token 拼接在同一序列中,用纯自注意力的单流 Transformer 同时生成。没有交叉注意力,没有多流同步,只有一个 15B 参数、40 层的统一模型。

关键能力:表情丰富的面部动作、自然的语音-表情协调、逼真的身体运动、精确的音视频同步。支持中文(普通话/粤语)、英语、日语、韩语、德语、法语六种语言的口语生成。

2 秒
生成 5 秒 256p 视频(单 H100)
80%
人类评估胜率 vs Ovi 1.1
14.6%
WER(语音清晰度最优)

完整模型栈开源:基础模型、蒸馏模型、超分模型和推理代码。在 2000 对人类评估中,对 Ovi 1.1 胜率 80.0%,对 LTX 2.3 胜率 60.9%。语音清晰度(WER 14.60%)在同类开源模型中最优。

编辑解读「Speed by Simplicity」——标题就是最好的技术总结。当多流、交叉注意力、同步模块都被一个纯自注意力替代,工程复杂度下降的同时效果反而更好。这是对"复杂度税"最有力的反驳。
04 / 10

Astrolabe:前向过程 RL 校正蒸馏视频模型——不展开反向过程也能对齐人类偏好

104 upvotes 视频RL · 03-23

蒸馏后的自回归(AR)视频模型能高效流式生成,但经常与人类视觉偏好不一致。现有 RL 框架不太适合这类架构:要么需要昂贵的重新蒸馏,要么需要求解器耦合的反向过程优化(大量内存和计算开销)。

Astrolabe 提出前向过程 RL:基于负感知微调(negative-aware fine-tuning),直接在推理端点对比正负样本建立隐式策略改进方向,无需展开反向过程。这意味着 RL 校正可以在不牺牲实时推理速度的前提下完成。

在多种基线模型上,Astrolabe 一致且稳定地改善了短视频和长视频的视觉美学和时序一致性——同时保持实时推理速度不变。

编辑解读视频 RL 的关键瓶颈是反向过程展开的成本。Astrolabe 绕过这个瓶颈的方式优雅而实用——前向过程的对比学习。这使得 RL 校正视频模型在工程上变得可行。
05 / 10

HopChain:多跳数据合成驱动 VLM 视觉推理——Qwen3.5 两款模型 24 项基准 20 项提升

104 upvotes VLM/推理 · Qwen + Tsinghua LeapLab · 03-23

VLM 展示了强大的多模态能力,但在细粒度视觉-语言推理上仍然挣扎。长链推理暴露了感知、推理、知识等多种失败模式。HopChain 提出了一个可扩展的框架,为 RLVR 训练合成多跳视觉推理数据

每个合成的多跳查询形成一条逻辑依赖链:前面的跳建立实例、集合或条件,后面的跳在此基础上推理。最终答案是明确无歧义的数字,适合可验证奖励。这是 Qwen3.5 VL RLVR 的训练数据来源之一。

20/24
基准测试提升(无针对性优化)
50+
超长 CoT 准确率提升(百分点)
2 款
Qwen3.5 模型验证(35B/397B)

将 HopChain 数据加入 Qwen3.5-35B-A3B 和 Qwen3.5-397B-A17B 的 RLVR 训练后,跨 STEM/通用 VQA/文档理解/视频理解四个领域 24 项基准中 20 项提升。多跳训练还增强了长 CoT 推理,超长链场景下准确率提升超过 50 个百分点。

编辑解读来自 Qwen 团队的直接贡献——HopChain 不是事后验证,而是 Qwen3.5 VL 的实际训练组件。它证明了合成多跳数据对 RLVR 的普适价值,且未针对任何特定基准优化就带来广泛提升。
06 / 10

Intern-S1-Pro:万亿参数科学多模态基础模型——512 专家、100+ 科学任务、完全开源

94 upvotes 科学大模型 · Shanghai AI Lab (InternLM) · 03-27

继 Intern-S1 之后,上海人工智能实验室将科学多模态模型推向万亿参数规模。Intern-S1-Pro 采用 512 个专家、每 token 激活 8 个专家(22B 激活参数)的 MoE 架构,在「通用-专业融合」(SAGE) 技术框架下训练。

能力覆盖极为广泛:数学和逻辑推理达到奥林匹克金牌水平;科学专长扩展到化学、材料科学、生命科学、地球科学等领域的 100+ 专业任务;同时具备先进的 Agent 能力和图文理解能力。

1T
总参数量(首个万亿级科学模型)
512
MoE 专家数
100+
覆盖的科学专业任务

训练基于 XTuner 和 LMDeploy 基础设施,在万亿参数规模下实现了高效 RL 训练,同时严格保证训练-推理精度一致性。模型在 GitHub 和 HuggingFace 完全开源。

编辑解读当万亿参数模型开始专注科学领域,AI4Science 进入了新阶段。512 专家的 MoE 设计使得 22B 的激活开销在推理侧仍然可控——这是"大而可用"的工程智慧。
07 / 10

OpenResearcher:完全开源的深度研究 Agent——30B-A3B MoE 在 BrowseComp-Plus 超越 GPT-4.1

88 upvotes Agent/研究 · TIGER-AI-Lab · 03-24

训练深度研究 Agent 需要长链交互轨迹——搜索、证据聚合和多步推理交错进行。但现有数据收集管线依赖私有 API 或人工标注,可复现性差。OpenResearcher 提出了一个完全开源、完全离线的管线:

将一次性语料库引导与多轮轨迹合成解耦,在 1500 万篇文档(约 110 亿 token)的自建语料库上,用三个显式浏览原语(search、open、find)执行搜索-浏览循环。以 GPT-OSS-120B 为教师模型,合成了超过 97K 条轨迹,其中包含大量 100+ 工具调用的长链样本。

54.8%
BrowseComp-Plus 准确率
30B-A3B
MoE 模型规模
97K+
合成训练轨迹数

最终的 30B-A3B MoE 模型在 BrowseComp-Plus 上达到 54.8% 准确率,超越 GPT-4.1、Claude Opus 4、Gemini-2.5-Pro、DeepSeek-R1 和通义-DeepResearch。已被 NVIDIA Nemotron 系列采用。全部管线、轨迹数据、模型权重和离线搜索环境均开源。

编辑解读Deep Research 赛道的"LLaMA 时刻"——当完整管线开源且性能超越闭源 SOTA 时,社区的创新速度将被加速释放。97K 轨迹数据本身就是宝贵的训练资源。
08 / 10

LongCat-Flash-Prover:560B MoE 刷新 Lean4 形式推理——MiniF2F-Test 97.1%、开源可部署

74 upvotes 形式推理 · Meituan LongCat · 03-24

形式化数学推理要求模型在 Lean4 等证明助手中生成可验证的证明。LongCat-Flash-Prover 是美团开源的 560B 参数 MoE 模型(约 27B 激活参数),将形式推理分解为三种独立能力:自动形式化(非形式到形式)、草图生成(引理级别结构)和完整证明

训练创新:混合专家迭代框架扩展高质量任务轨迹;层级重要性采样策略优化(HisPO)稳定 MoE 在长链任务上的 RL 训练,采用梯度掩码策略处理序列级和 token 级的策略滞后问题。

97.1%
MiniF2F-Test(72 次推理)
46.7%
MathOlympiad-Bench
41.5%
PutnamBench

在仅 72 次推理尝试下 MiniF2F-Test 达到 97.1% 通过率,MathOlympiad-Bench 46.7%、PutnamBench 41.5%。支持 SGLang 和 vLLM 部署。

编辑解读形式推理从"研究玩具"走向"工程产品"——97.1% 的 MiniF2F 通过率意味着形式证明自动化已接近实用。MoE 架构的选择也值得注意:27B 激活参数使其在消费级硬件上可部署。
09 / 10

Hyperagents:Meta 提出能改进自己改进机制的 AI——元认知自改进 Agent

35 upvotes Agent/自改进 · Meta + UBC + Vector Institute + Edinburgh · 03-23

大多数自改进 AI 系统遇到同一个瓶颈:产生改进的机制本身是固定的,无法被改进。Hyperagents 打破了这个限制:将任务 Agent(解决目标任务)和元 Agent(修改自身和任务 Agent)整合进同一个可编辑程序,关键是元级别的修改过程本身也是可编辑的。

DGM-Hyperagents(DGM-H)框架消除了对领域特定先验的依赖,理论上可以在任何可计算任务上实现自加速进展。实验结果显示:

跨多个领域,DGM-H 持续提升性能,超越无自改进或无开放探索的基线,也超越此前的自改进系统。更重要的是,元级别的改进会跨领域迁移、跨运行累积——Agent 学会了持久化记忆、性能追踪等通用能力。

编辑解读这是 AI 领域的"元编程"——当 Agent 不仅优化解题策略,还优化"如何优化"本身,我们就进入了递归自改进的领域。虽然目前效果仍在受控环境中验证,但这是通向 AGI 最直接的理论路径之一。来自 Meta FAIR 的这篇论文值得长期关注。
10 / 10

CUA-Suite:55 小时人类操作视频 + 360 万 UI 标注——桌面 Agent 的大规模训练数据

85 upvotes Agent/GUI · 03-26

通用桌面 Agent 的发展受限于高质量连续人类操作数据的匮乏。CUA-Suite 提供了统一的数据生态系统:约 10,000 个人类演示任务,覆盖 87 个专业应用,包含连续 30fps 屏幕录像、运动学光标轨迹和多层推理标注(平均每步 497 词)。

三大组件:VideoCUA(55 小时专家视频 + 详细动作轨迹);UI-Vision(全面的 Agent 定位与规划评估基准);GroundCUA(56K 标注截图、360 万+ UI 元素标注的大规模定位数据集)。

55h
专家操作视频(600万帧)
87
覆盖专业应用数
3.6M+
UI 元素标注数
编辑解读Computer-use Agent 正在从"玩具 demo"走向"真实工具"。CUA-Suite 的价值不仅在数据规模,更在于它的标注密度——每步 497 词的推理标注意味着模型可以学到"为什么这样操作",而不只是模仿动作序列。
🔒

登录后查看完整内容

第 8-10 篇深度解读 + 趋势分析 + 新模型/工具 + 开发者建议需要登录查看

Google 登录
TRENDS

本周四大趋势

MODELS

本周新模型 / 新工具

daVinci-MagiHuman (15B)

开源音视频联合生成基础模型,单 H100 实时推理,支持 6 语种口播生成。含基础模型、蒸馏模型、超分模型。

GitHub · HF Model

Intern-S1-Pro (1T)

万亿参数科学多模态基础模型,512 专家 MoE,覆盖化学、材料、生命科学等 100+ 任务。

GitHub · HF Model

LongCat-Flash-Prover (560B MoE)

美团开源 Lean4 形式推理模型,MiniF2F-Test 97.1%,支持 SGLang/vLLM 部署。

GitHub · HF Model

OpenResearcher (30B-A3B MoE)

完全开源深度研究 Agent。含管线代码、97K 训练轨迹、离线搜索环境和模型权重。已被 NVIDIA Nemotron 采用。

GitHub

MinerU-Diffusion (2.5B)

扩散式文档 OCR 模型,MIT 协议开源,含三种推理后端和端到端文档解析管线。

GitHub

HyperAgents (Meta)

自引用自改进 Agent 框架,元级别改进可跨领域迁移、跨运行累积。

GitHub
DEV TIPS

开发者实用建议

数据来源