论文日报 · HF Daily

HF每日论文 | 3月17日:AI 学会科研品味、全开源搜索 Agent 登场、注意力机制两连发

214↑ Scientific Taste 用 RL 判断论文影响力、OpenSeeker 全开源搜索 Agent、AttnRes 注意力替代残差、MoDA 跨层深度注意力

2026.03.17
46 篇论文, 10 篇深度解读
Top 1: 214 votes
PaperScope Editorial

速览目录 · Top 10

# 论文 领域 Votes
1Scientific TasteAI 科研 / 元研究214
2OpenSeeker搜索 Agent / 开源123
3EnterpriseOps-GymAgent / 评测基准113
4HSImul3R具身智能 / 3D 重建91
5Seoul World Model视频生成90
6AttnResLLM 架构55
7MoDA大模型架构45
8xLSTM 蒸馏大模型架构28
9CAD (VLM 幻觉诊断)多模态24
10ViFeEdit视频生成19

今日主线一:AI 元研究的突破——复旦团队让 AI 学会判断论文潜在影响力,Scientific Judge 超越 GPT-5.2 和 Gemini 3 Pro,这标志着 AI 从"写论文"进化到"评论文"。主线二:开源 Agent 全面崛起——OpenSeeker 仅用 11,700 条合成数据训练出 30B 搜索 Agent,在 BrowseComp 上以 29.5% 大幅领先第二名(15.3%),全栈开源。主线三:注意力机制的深层革新——Kimi 的 AttnRes 和字节的 MoDA 分别从残差路径和跨层检索两个角度重新设计深层 Transformer。

Insight:当 AI 开始具备"科研品味",下一个被革新的不只是论文写作,而是整个科研评审体系——从同行评议到基金评审都将面临范式转换。

01 / 10

Scientific Taste: 用强化学习让 AI 学会判断论文潜在影响力

214 upvotes AI 科研 / 元研究 · 复旦大学
Scientific Taste Overview
RLCF 两阶段训练:Scientific Judge(偏好建模)→ Scientific Thinker(RL 对齐 idea 生成)

顶尖科学家不只擅长执行研究,更具备一种难以言传的「科学品味」——判断哪个研究方向值得追,哪篇 idea 有真正的影响力。这种能力此前被认为只属于人类专家,而本文来自复旦大学的团队尝试将其系统化、可学习化。

核心动机:现有 AI 科学家研究大多聚焦于「执行能力」(如文献检索、自动实验),对 AI 如何判断研究价值这一上游问题几乎空白。论文指出,引用数是社区对研究价值的长期集体反馈,可以作为偏好信号的代理。

方法框架 RLCF(Reinforcement Learning from Community Feedback):研究分两个模块。首先训练 Scientific Judge,基于 70 万对「高引 vs 低引」论文摘要对(按领域和发表时间严格匹配)进行偏好建模,让模型学会从 abstract 层面判断哪篇论文更有影响力潜力。随后以 Scientific Judge 作为奖励模型,通过强化学习训练 Scientific Thinker,使其提出的 research idea 分布朝高影响力方向对齐。

关键结果:Scientific Judge 在 SciJudgeBench 上超越 GPT-5.2、Gemini 3 Pro 等闭源旗舰模型,且泛化到未见领域、未来年份测试集和同行评审偏好场景。Scientific Thinker 生成的 idea 在集成评估下胜过未对齐基线模型的胜率显著提升。

一句话总结:用 70 万对高低引用论文作偏好数据,通过 RLCF 两阶段训练,首次系统验证了 AI 可以习得「科学品味」并将其迁移到 idea 生成中。

70 万对
高引 vs 低引论文偏好数据
超越
GPT-5.2 & Gemini 3 Pro
RLCF
社区反馈强化学习
02 / 10

OpenSeeker: 全开源训练数据驱动的前沿级搜索 Agent

123 upvotes 搜索 Agent / 开源 · 上海交通大学
OpenSeeker Overview
OpenSeeker 训练流水线:可控 QA 合成 + 去噪轨迹 + 单次 SFT 达到前沿级搜索能力

深度搜索能力正成为前沿 LLM Agent 的标配,但高性能搜索 Agent 的训练数据长期被工业界垄断,开源社区缺乏完整的可复现路径。上海交通大学团队推出 OpenSeeker,将模型权重、训练数据、合成 pipeline 全部开放,试图打破这一壁垒。

核心动机:BrowseComp 基准上,截至 2025 年 4 月即便最强闭源模型也难超 10 分;到 2026 年 3 月已有超过 10 个 Agent 突破 50 分。然而这些高分 Agent 几乎全部来自有充裕算力的大厂,训练数据从未公开。OpenSeeker 针对这一「数据黑箱」问题切入。

两项核心技术:(1)基于事实的可控 QA 合成:通过拓扑展开(topological expansion)和实体混淆(entity obfuscation)对 Web 图谱进行逆向工程,自动生成复杂度和覆盖度可控的多跳推理问题,从根本上解决数据稀缺问题。(2)去噪轨迹合成:引入回顾式摘要机制(retrospective summarization),对 teacher LLM 生成的搜索轨迹进行噪声过滤,显著提升动作序列质量,使 SFT 训练更有效。

关键结果:OpenSeeker(30B,仅 11,700 条合成样本 + 单次 SFT 训练)在 BrowseComp、BrowseComp-ZH、xbench-DeepSearch、WideSearch 四个基准上均达到 SOTA 开源水平。BrowseComp 上以 29.5% 大幅领先第二名全开源 Agent DeepDive(15.3%),BrowseComp-ZH 上甚至超越经过持续预训练 + SFT + RL 的通义 DeepResearch(48.4% vs 46.7%)。

一句话总结:用不到 1.2 万条合成训练样本 + 单次 SFT,OpenSeeker 实现了对工业界闭源搜索 Agent 的比肩乃至超越,并将完整数据和权重开源,为搜索 Agent 研究提供了可复现的基准起点。

11,700
合成训练样本数(单次 SFT)
29.5%
BrowseComp 得分(#2 仅 15.3%)
全开源
权重 + 数据 + Pipeline
03 / 10

EnterpriseOps-Gym:企业级有状态智能体规划与工具调用基准测试

113 upvotes Agent / 评测基准
EnterpriseOps-Gym Overview
EnterpriseOps-Gym:164 张数据库表 + 512 个工具 + 1,150 道任务,覆盖 8 大业务领域

当前 AI Agent 的企业落地面临一个根本性矛盾:现有评测基准过于简化,根本无法反映真实业务场景的复杂性。EnterpriseOps-Gym 正是为填补这一空白而生。

基准设计:研究团队构建了一个容器化沙盒环境,内含 164 张数据库表512 个可调用工具,跨越客服、HR、IT 等 8 大业务领域,共设计 1,150 道专家级任务。与 SWE-bench 等代码基准不同,这里的任务要求 Agent 在有持久状态变更的环境中维持多步骤计划,并严格遵守访问控制策略——这正是企业真实工作流的核心挑战。

核心发现令人警醒:对 14 个前沿模型的测评显示,最强的 Claude Opus 4.5 成功率仅为 37.4%,开源模型普遍低于 20%。更关键的发现是:当提供人工编写的「Oracle 计划」后,成功率提升 14–35 个百分点,这直接指向了模型的战略推理能力是当前瓶颈所在,而非工具调用能力本身。

另一个高风险问题是拒绝不可行任务的能力——最佳模型也只有 53.9% 的正确拒绝率。这意味着近半数情况下,Agent 会在无法完成的任务上执行错误操作,直接修改数据库或触发下游流程,产生难以逆转的副作用。

对企业部署的启示:研究清晰地表明,当前 Agent 尚不具备在企业环境中完全自主运行的能力。EnterpriseOps-Gym 为研究界提供了一个可复现的压力测试平台,指引未来工作聚焦于长程规划和策略合规两大方向。

37.4%
最强模型成功率(Claude Opus 4.5)
1,150
专家级任务数
+14~35%
Oracle 计划带来的提升
04 / 10

HSImul3R:物理仿真驱动的人-场景交互三维重建框架

91 upvotes 具身智能 / 3D 重建
HSImul3R Overview
HSImul3R 双向优化框架:正向(运动精炼)+ 反向(场景几何修正)互补协同

从视频或图片重建人与场景的交互过程,是具身机器人训练数据获取的核心难题。现有方法普遍存在「视觉可信、物理失效」的困境:重建结果看起来合理,但一旦导入物理引擎,人物就会穿墙、漂浮或倒塌。HSImul3R 提出了一套以物理仿真器为核心监督信号的双向优化框架,直接攻克这一感知-仿真鸿沟。

核心架构——双向优化:框架分为两个互补方向。正向优化在固定场景几何的前提下,采用「场景靶向强化学习」来精炼人体运动,同时以运动保真度和接触稳定性作为双重奖励信号,确保脚步不悬空、手部真实触碰物体。反向优化则创新性地引入「直接仿真奖励优化(DSRO)」,利用仿真器对重力稳定性和交互成功率的反馈,反过来修正场景几何——物体的形状和位置会被迭代调整,直到满足物理约束。

数据来源灵活:HSImul3R 同时支持稀疏视角图片单目视频作为输入,借助图像到三维生成模型建立度量一致的初始对齐,降低了数据采集门槛,方便在野外环境中收集真实人类行为。

实验证明,HSImul3R 生成的重建结果可以直接部署到真实人形机器人,完成搬运、坐立等复杂动作,是当前少数能真正打通「感知重建→物理仿真→机器人部署」完整链路的工作之一。

05 / 10

将世界仿真模型锚定到真实城市:首尔世界模型

90 upvotes 视频生成 · KAIST AI + NAVER AI Lab
Seoul World Model Overview
Seoul World Model:RAG 条件生成 + Virtual Lookahead Sink,让世界模型锚定真实地理

大多数视频世界模型生成的都是"虚构环境"——给定一张起始图,后续所有内容由模型凭空想象。KAIST AI 与 NAVER AI Lab 合作提出的 Seoul World Model(SWM) 反其道而行:让世界模型生成的是真实存在的首尔街道,而非杜撰出来的城市景观。

核心方案是检索增强条件生成(RAG-conditioned generation)。给定 GPS 坐标、摄像机动作和文字提示,SWM 从街景图库中检索附近的参考图,将几何结构与外观信息注入自回归视频生成过程,使每段生成内容都锚定在真实地理位置的布局之上。模型在 44 万张首尔街景图、真实驾驶视频和合成城市数据上微调一个预训练视频世界模型。

引入真实街景带来三个技术难点,论文逐一给出解法:时序错位(检索到的旧图与动态目标场景不一致)→ 跨时间配对训练策略;轨迹多样性不足与数据稀疏(车载采集间隔大)→ 构建大规模合成数据集 + 视角插值流水线;长程生成飘移 → 提出 Virtual Lookahead Sink,每段生成前持续将未来位置的检索图作为锚点重新校准。

在首尔、釜山和 Ann Arbor 三座城市的评测中,SWM 在空间保真度、时序一致性和长程稳定性上均优于现有视频世界模型,可沿数百米轨迹生成与真实城市高度吻合的视频,同时支持多样化摄像机运动和文字驱动的场景变换(如洪水、黄昏光效)。

44 万
首尔街景训练图片
3 城市
首尔 / 釜山 / Ann Arbor 评测
GPS 锚定
RAG 条件生成真实地理

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录
06 / 10

注意力残差:用深度维注意力替代固定残差累加

55 upvotes LLM 架构 · Kimi 团队
AttnRes Overview
AttnRes:伪查询向量对所有历史层做 softmax 注意力,动态选择性聚合跨层信息

现代大语言模型中,残差连接(Residual Connection)与 PreNorm 几乎是标配,但它们始终以固定单位权重对所有层的输出做均匀累加。Kimi 团队发现这种均匀聚合会导致隐藏状态随深度以 O(L) 速度增长,越深的层对最终表示的贡献越被稀释,早期层的信息无法被选择性地取用——这正是大量层可以被无损剪枝的根本原因。

论文提出 Attention Residuals(AttnRes),用深度维度上的 softmax 注意力替换固定累加。具体而言,每层用一个可学习的伪查询向量(d 维)对前面所有层的输出计算注意力权重,使当前层能够内容感知地、动态地从历史各层中选择性聚合信息。作者指出这与 RNN 在序列维度遇到问题后引入注意力机制的情形在形式上完全对称。

面向大规模训练的工程挑战,论文进一步提出 Block AttnRes:将层分组为若干 Block,仅在 Block 级表示上做注意力,把内存开销从 O(Ld) 降至 O(Nd),同时结合基于缓存的流水线通信和两阶段计算策略,使其成为标准残差连接的即插即用替代方案,几乎无额外开销。

Kimi 团队将 AttnRes 集成进 Kimi Linear 架构(48B 总参数 / 3B 激活参数),在 1.4T token 上预训练验证:AttnRes 有效缓解了 PreNorm 稀释问题,使各层输出幅度和梯度分布更均匀,所有下游评测任务均有提升。Scaling law 实验也确认改进在不同模型规模下保持一致。

48B
总参数 / 3B 激活参数
1.4T
预训练 token 数
即插即用
替代标准残差,几乎零额外开销
07 / 10

MoDA:混合深度注意力,让大模型深度扩展不再「信息稀释」

45 upvotes 大模型架构 · 字节跳动 Seed + 华中科技大学
MoDA Overview
MoDA:在序列维度注意力基础上增加深度维 KV 检索,以 3.7% FLOPs 换取 2.11% 平均提升

核心问题:深度扩展中的信息稀释

大语言模型扩展深度时存在一个长期困扰:浅层形成的有价值特征,在经过一层又一层的残差更新后会被逐渐"冲淡",到深层时已难以有效恢复。这本质上是残差路径的单轨制缺陷——所有历史信息都被压缩进一条隐状态轨迹,没有任何机制让深层直接"回望"浅层曾经存储的关键信息。

MoDA 的解决思路

来自字节跳动 Seed 与华中科技大学的团队提出了 混合深度注意力(MoDA)。其核心思想是:在标准的序列维度注意力基础上,同时允许每个注意力头跨层访问"深度 KV"——即同一序列位置在所有前驱层产生的 Key-Value 对。

这相当于把注意力机制从"序列内检索"扩展到了"深度维检索":模型不仅能在同一层内关注不同位置的 token,还能在同一位置回溯不同层深度上曾经编码过的特征,实现了 DenseNet 跨层连接的语义,但以注意力的数据驱动方式动态选择,而非固定稠密连接。

实验结果

在 1.5B 参数规模的模型上,MoDA 相比强基线(OLMo2)带来显著提升:

此外,MoDA 与 post-norm 组合时效果优于 pre-norm,这为架构选型提供了实用指导。代码已开源。

+2.11%
10 个下游任务平均提升
3.7%
额外 FLOPs 开销
97.3%
FlashAttention-2 效率保持
08 / 10

xLSTM 蒸馏新突破:Expert 合并让线性架构无损继承 Transformer 能力

28 upvotes 大模型架构 · NXAI + 林茨大学(Sepp Hochreiter 团队)
xLSTM Distillation Overview
Expert 合并蒸馏流程:分治专家训练 → 合并 → xLSTM 学生模型在代码和数学上追平教师

背景:线性化蒸馏的老大难问题

将 Transformer LLM 蒸馏成线性复杂度架构,是降低推理成本的重要路线。但长期以来,蒸馏出的学生模型总有一道坎迈不过去:在语言理解和知识类任务上勉强追平教师,一到数学推理、代码生成这类需要强生成能力的任务上就明显掉队。

关键创新:Expert 合并阶段

论文的核心贡献是在蒸馏流程中引入了一个额外的 Expert Merging 阶段:先对各层独立进行线性化专家训练,再将多个专家合并成单一模型。这种分治再合并的策略,让每个专家在局部优化时不受其他层干扰,合并后又能发挥协同效应,显著提升了学生模型在复杂生成任务上的表现。

实验覆盖与结果

团队以 xLSTM 作为学生架构,对 Llama、Qwen、OLMo 系列的 base 模型和指令微调模型进行蒸馏:

xLSTM 架构具备线性推理复杂度,在长序列上推理成本远低于 Transformer。本文将高性能 Transformer LLM 的知识有效迁移到 xLSTM,向"用更少能耗部署同等能力模型"这一目标迈出了重要一步。

09 / 10

解剖谎言:多阶段诊断框架追踪视觉语言模型幻觉根源

24 upvotes 多模态 · 新加坡国立大学
CAD Framework Overview
CAD 三阶段诊断:感知不稳定性 → 逻辑因果失败 → 决策模糊性,精确定位幻觉病灶

视觉语言模型(VLM)的幻觉问题一直是落地部署的核心障碍:模型会生成听起来合理但事实错误的内容。新加坡国立大学的研究团队提出了一个全新诊断范式,将幻觉从"静态输出错误"重新定义为"动态认知病理"。

核心发现:几何-信息对偶原理
论文最重要的理论贡献是发现了"几何-信息对偶"(geometric-information duality):在认知状态空间(Cognitive State Space)中,模型生成轨迹的几何异常与信息论意义上的高惊讶度(surprisal)在本质上是等价的。这意味着幻觉检测可以被优雅地转化为几何异常检测问题——不需要昂贵的标注数据,只需在低维空间中观察轨迹偏离。

三阶段诊断框架 CAD
研究设计了一套信息论探针,将模型生成过程映射到可解释的低维认知状态空间,并定义三类可测量的病理状态:

CAD 框架在 POPE(二元 QA)、MME(综合推理)、MS-COCO(开放字幕)三个基准上均达到最优性能,且在弱监督条件和含噪校准数据下依然鲁棒。代码已开源:github.com/Lexiang-Xiong/CAD

10 / 10

ViFeEdit:无需视频数据,仅用图像微调视频扩散 Transformer

19 upvotes 视频生成 · 新加坡国立大学 + 上海交通大学
ViFeEdit Overview
ViFeEdit 双路径管线:架构重参数化解耦空间与时间,纯图像微调支持 6 类视频编辑

视频编辑模型的训练通常需要海量配对视频数据,构建成本动辄耗费一万 GPU 天以上。新加坡国立大学与上海交通大学的联合团队提出 ViFeEdit,一个无需任何视频训练数据、仅靠 2D 图像就能微调视频扩散 Transformer 的框架。

核心思路:解耦空间与时间建模
现代视频 DiT(如万象 Wan 系列)采用 3D 全注意力机制,同时处理空间和时间维度,导致无法直接用图像数据训练。ViFeEdit 的关键创新是一种架构重参数化(architectural reparameterization):将 3D 注意力中的空间独立性从时间维度中剥离出来,使调优器可以单独在 2D 图像上学习空间编辑行为,而预训练的时间模块保持冻结,继续维持帧间时序一致性。

双路径管线设计
ViFeEdit 采用双路径(dual-path)推理管线,为噪声调度配备独立的时间步嵌入,增强了对多种条件信号的适应性。同一个框架支持六类精细化视频编辑任务:

这项工作的实用价值在于大幅降低视频编辑能力的获取门槛——中小团队无需搭建大规模 GPU 集群、无需收集配对视频,只需准备图像数据即可完成微调。代码已开源。

其余论文速览 · #11–46

# 论文 领域 Votes
11Safe and Scalable Web Agent Learning via RecreatedAgent 安全18
12Make it SING: Analyzing Semantic Invariants in Cla对抗鲁棒15
13TERMINATOR: Learning Optimal Exit Points for EarlyCoT 优化12
14WebVR: Benchmarking Multimodal LLMs for WebPage Re多模态评测12
15Panoramic Affordance Prediction注意力机制9
16Understanding Reasoning in LLMs through StrategicMoE 架构9
17FineRMoE: Dimension Expansion for Finer-Grained Ex光照编辑9
18Learning Latent Proxies for Controllable Single-Im人体运动生成8
19Riemannian Motion Generation: A Unified Framework多模态推理8
20MMOU: A Massive Multi-Task Omni Understanding andSFT vs RL7
21Supervised Fine-Tuning versus Reinforcement LearniCoding Agent7
22Code-A1: Adversarial Evolving of Code LLM and Test视频检测7
23Training-free Detection of Generated Videos via Sp随机优化7
24POLCA: Stochastic Generative Optimization with LLMAgent 竞技6
25The PokeAgent Challenge: Competitive and Long-Cont遥感6
26RS-WorldModel: a Unified Model for Remote Sensing视频推理5
27VisionCoach: Reinforcing Grounded Video Reasoning视频生成5
28FlashMotion: Few-Step Controllable Video Generatio文字渲染4
29GlyphPrinter: Region-Grouped Direct Preference Opt知识图谱4
30MoKus: Leveraging Cross-Modal Knowledge Transfer fKV Cache3
31OxyGen: Unified KV Cache Management for Vision-LanLLM 动机3
32Motivation in Large Language Models货币政策3
33Mind the Shift: Decoding Monetary Policy Stance fr多 Agent3
34Autonomous Agents Coordinating Distributed DiscoveAgent 评测3
35EvoClaw: Evaluating AI Agents on Continuous Softwa具身操作3
36Towards Generalizable Robotic Manipulation in Dyna数学发现3
37HorizonMath: Measuring AI Progress Toward MathematLLM 稀疏性3
38When Does Sparsity Mitigate the Curse of Depth in文档解析3
39Efficient Document Parsing via Parallel Token Pred扩散模型3
40Spectrum Matching: a Unified Perspective for Super虚拟试穿2
41Garments2Look: A Multi-Reference Dataset for High-概念分解2
42SCoCCA: Multi-modal Sparse Concept Decomposition vTTS2
43VoXtream2: Full-stream TTS with dynamic speaking r视频扩散1
44Tri-Prompting: Video Diffusion with Unified Contro医疗 QA1
45sebis at ArchEHR-QA 2026: How Much Can You Do Loca图像 Token0
46SNCE: Geometry-Aware Supervision for Scalable Disc其他0

今日趋势

今天值得持续关注的三个趋势:
1. AI 科研元能力:从辅助写作到独立判断论文价值,AI 在科研生态中的角色正在升级
2. 注意力机制的深度革命:AttnRes 和 MoDA 表明,深层 Transformer 的信息流优化仍有巨大空间
3. 全开源 Agent 生态:OpenSeeker 证明开源数据+开源模型可以达到甚至超越闭源水平

感谢读到这里 如果觉得今天的论文解读有收获,欢迎 点赞、在看、转发 三连支持~想第一时间看到新推送,记得给公众号加个 星标,明天见

参考来源