📅 本期精选来自 2026-03-17 ArXiv 最新论文,聚焦世界模型、视频生成、具身AI、扩散模型等核心方向,共 8 篇。


📄 论文精选

Seoul World Model: Grounding World Simulation Models in a Real-World Metropolis

链接: https://arxiv.org/abs/2603.15583

一句话总结: 首个以真实城市(首尔)为锚点的大规模城市级世界模型 SWM,通过检索增强条件实现与现实环境真正对齐的长视野视频生成。

研究问题: 现有生成式世界模型合成的都是"幻想中的环境"而非真实世界,缺乏与具体现实地点的空间一致性,无法支持自动驾驶等需要精确环境还原的下游任务。

核心方法: 以首尔为基础构建城市级世界模型,核心创新包括:(1)检索增强条件(RAC)——从附近街景图像中检索参考帧并用于自回归视频生成;(2)跨时间配对(cross-temporal pairing)解决参考图像与动态目标场景间的时间错位;(3)大规模合成数据集支持多样轨迹;(4)Virtual Lookahead Sink 机制通过持续对前方位置检索图像来稳定长视野生成。

技术亮点:

  • 真实城市锚定:不是合成环境,而是真实地图坐标驱动的视频生成
  • 跨时态参考配对:解决了街景图与当前帧的时序不对齐问题
  • 虚拟前瞻锚点(Virtual Lookahead Sink):每个生成 chunk 都被未来位置的检索图像重新锚定,保证长程时空一致性
  • 支持文本提示场景变体(天气、时间、交通状况)

实验结果: 跨首尔、釜山、Ann Arbor 三个城市评估,SWM 在生成空间忠实度、时序一致性、长视野(轨迹长达数百米)方面均优于现有视频世界模型基线,同时支持多样相机运动。

应用场景: 自动驾驶仿真、城市规划可视化、高精度导航数据增强。

研究价值: ⭐⭐⭐⭐⭐(5/5)— 将世界模型从"想象世界"升级为"真实世界的数字孪生",是城市级世界模型的重要里程碑,对自动驾驶和具身AI均有深远意义。


DOMINO & PUMA: Towards Generalizable Robotic Manipulation in Dynamic Environments

链接: https://arxiv.org/abs/2603.15620

一句话总结: 提出 DOMINO 大规模动态操控数据集和 PUMA 动态感知 VLA 架构,系统填补了现有 VLA 在动态场景中的能力空白。

研究问题: 现有 VLA 模型在静态操控中表现出色,但在目标移动的动态场景下显著退化——根本原因是缺乏动态操控数据集,以及主流 VLA 依赖单帧观测、无法建模时空动态。

核心方法: 双轨并进:(1)DOMINO 数据集:35 个任务、层次化复杂度设计、11 万条以上专家轨迹、多维评估套件;(2)PUMA 架构:集成场景中心历史光流(scene-centric historical optical flow)和专用世界查询(world queries)进行隐式的以目标为中心的未来状态预测,将历史感知与短视野预测耦合为一体。

技术亮点:

  • 动态操控首个大规模基准:35 任务 × 11 万轨迹,覆盖层次化复杂度
  • 历史光流特征:显式编码场景时序动态,弥补单帧 VLA 的空间时间盲点
  • 世界查询(World Queries):对目标未来状态进行隐式预测,使 VLA 具备短视野前瞻能力
  • 动态数据泛化:在动态数据上训练的表征可迁移到静态任务

实验结果: PUMA 在动态任务成功率上较基线绝对提升 6.3%;动态训练数据可向静态任务正迁移,证明了空间时间表征的普适性。

应用场景: 动态环境下的机械臂操控、工业自动化、人机协作场景。

研究价值: ⭐⭐⭐⭐⭐(5/5)— 开辟了具身AI动态操控这一全新子方向,数据集+方法+基准三位一体,预期对后续研究影响深远。


DeepVision-VLA: Enhancing Vision Foundation Representations for Vision-Language-Action Models

链接: https://arxiv.org/abs/2603.15618

一句话总结: 系统分析 VLA 深层视觉敏感性衰减现象,提出 VL-MoT 框架和 AGVP 机制,使 VLA 的视觉表征能力在深层得到有效保持。

研究问题: VLA 模型在动作生成时,深层对视觉 token 的敏感度逐渐消失,导致视觉信息无法有效指导精细操控,但现有工作将 LLM 骨干视为黑盒,缺乏对这一现象的系统性理解。

核心方法: 首先通过多模型实验系统量化了"视觉敏感度衰减"现象,然后提出:(1)VL-MoT(视觉语言混合 Transformer):在视觉基础模型与 VLA 主干之间共享注意力,将视觉专家的多层特征注入 VLA 深层;(2)AGVP(动作引导视觉剪枝):利用浅层注意力剪除无关视觉 token,以极低计算开销强化任务相关视觉线索。

技术亮点:

  • 首次系统量化 VLA 深层视觉敏感度衰减规律
  • VL-MoT 架构:视觉专家与 VLA 主干共享注意力,跨层注入多级视觉特征
  • AGVP:基于浅层注意力的轻量视觉 token 剪枝,几乎不增加计算开销
  • 广泛适配性:适用于不同动作生成范式的 VLA 模型

实验结果: 相较于先前 SOTA 方法,在仿真任务和真实世界任务上分别提升 9.0% 和 7.5% 成功率。

应用场景: 机械臂精细操控、多模态机器人控制、复杂桌面任务执行。

研究价值: ⭐⭐⭐⭐(4/5)— 诊断+修复双管齐下,对 VLA 视觉能力提升路径有实质性贡献,实验结果扎实。


Tri-Prompting: Video Diffusion with Unified Control over Scene, Subject, and Motion

链接: https://arxiv.org/abs/2603.15614

一句话总结: Tri-Prompting 提出统一框架,同时控制视频扩散中的场景构图、多视角主体一致性和运动轨迹,突破了现有方法各自为战的局限。

研究问题: 视频生成中场景构图、主体外观定制、相机/物体运动控制三者通常独立建模,缺乏统一架构,导致联合可控视频生成困难且各维度相互干扰。

核心方法: 两阶段训练范式下的 Tri-Prompting 统一框架:(1)双条件运动模块——3D 跟踪点驱动背景运动,下采样 RGB 线索控制前景主体;(2)多视角主体一致性模块确保任意姿态下的身份保持;(3)推理阶段 ControlNet scale schedule 平衡可控性与视觉真实感。

技术亮点:

  • 三维联合控制:场景、主体、运动三者统一建模,非顺序堆叠
  • 双条件运动模块:背景轨迹(3D 跟踪点)与前景主体(RGB 线索)并行条件化
  • 推理阶段自适应 ControlNet 尺度调度,控制可控性与真实感间的权衡
  • 支持 3D 感知主体插入任意场景的新工作流

实验结果: 在多视角主体身份保持、3D 一致性、运动精度三项指标上显著超过 Phantom、DaS 等专项基线。

应用场景: AI 视频内容创作、影视虚拟制作、角色一致性视频生成。

研究价值: ⭐⭐⭐⭐(4/5)— 视频生成可控性研究的重要进展,统一框架设计思路有较强创新性。


ViFeEdit: A Video-Free Tuner of Your Video Diffusion Transformer

链接: https://arxiv.org/abs/2603.15478

一句话总结: ViFeEdit 仅用 2D 图像数据微调视频扩散 Transformer,无需任何视频训练数据即可实现高质量可控视频生成与编辑。

研究问题: 将图像扩散 Transformer(DiT)扩展至可控视频生成和编辑时,配对视频训练数据极度稀缺且计算成本极高,限制了视频 DiT 控制能力的扩展。

核心方法: 架构重参数化(architectural reparameterization)将现代视频 DiT 中的完整 3D 注意力解耦为空间独立部分,使模型能够从 2D 图像数据中学习,同时通过独立 timestep embedding 的双路径管线保持时序一致性;仅需极少额外参数。

技术亮点:

  • 无视频数据训练:完全依赖 2D 图像微调,打破视频编辑数据瓶颈
  • 3D 注意力解耦:将空间独立性从完整 3D 注意力中分离,使 2D 图像训练成为可能
  • 双路径管线 + 独立 timestep embedding:保证编辑视觉保真度的同时维持时序一致性
  • 对多种控制信号(深度、姿态、草图等)具有强适应性

实验结果: 仅用少量 2D 图像数据训练后,在可控视频生成和编辑任务上取得有竞争力的效果,时序一致性得到有效保持。

应用场景: 视频风格化编辑、姿态/深度引导视频生成、低成本视频生成模型定制化。

研究价值: ⭐⭐⭐⭐(4/5)— 数据效率视角的重要工作,无视频数据训练范式对降低视频生成定制成本有实质意义。


GlyphPrinter: Region-Grouped Direct Preference Optimization for Glyph-Accurate Visual Text Rendering

链接: https://arxiv.org/abs/2603.15616

一句话总结: GlyphPrinter 提出区域级直接偏好优化(R-GDPO),从根本上解决扩散模型视觉文本渲染中局部字形错误难以感知和纠正的问题,被 CVPR 2026 接收。

研究问题: 现有文本渲染方法依赖文字识别系统作为奖励信号,而识别系统对细粒度字形错误不敏感,导致即便字形局部错误的图像仍获得高奖励,从而无法真正提升字形精度。

核心方法: 受 DPO 启发,提出 GlyphPrinter:(1)构建 GlyphCorrector 数据集,含区域级字形偏好标注;(2)Region-Grouped DPO(R-GDPO):在标注区域上同时优化样本间和样本内偏好,针对局部字形区域进行精细优化;(3)Regional Reward Guidance:推理策略,从最优分布中采样以实现可控字形精度。

技术亮点:

  • 无需显式奖励模型:以区域级偏好对消除对识别系统的依赖
  • R-GDPO:同时建模区域内跨样本和样本内偏好,超越标准 DPO 整体偏好建模
  • GlyphCorrector 数据集:首个含区域级字形偏好标注的数据集
  • 推理阶段 Regional Reward Guidance 可控精度调节

实验结果: 字形精度显著超过现有方法,同时保持风格化与精度的良好平衡;CVPR 2026 接收。

应用场景: 海报生成、广告设计、多语言视觉文本渲染、图文内容创作。

研究价值: ⭐⭐⭐⭐(4/5)— 针对扩散模型文本渲染的痛点提出了精准的方法论创新,区域级 DPO 思路值得关注。


HorizonMath: Measuring AI Progress Toward Mathematical Discovery with Automatic Verification

链接: https://arxiv.org/abs/2603.15617

一句话总结: HorizonMath 是首个针对"真正未解问题"的数学发现基准——100+ 题均无已知答案,可自动验证,且已发现 GPT 5.4 Pro 对两道题给出了超越已知最优解的方案。

研究问题: 现有数学推理基准要么依赖形式化证明验证(成本极高),要么依赖人工评审(难以扩展),且已知答案导致数据污染风险,无法真正衡量 AI 是否具备原创数学发现能力。

核心方法: 构建 HorizonMath 基准:(1)100+ 道跨越 8 个计算数学和应用数学领域的问题,以未解/开放问题为主;(2)解答困难但验证计算高效——适合自动化批量评估;(3)开源评估框架;(4)对 SOTA 模型进行系统评测,并发现 GPT 5.4 Pro 在两道题上超越已知最优发表结果。

技术亮点:

  • 免数据污染:问题无已知标准答案,模型无法靠记忆取胜
  • 发现难、验证易:精心设计问题结构,人类推理需要洞察力但验证可计算化
  • 实际数学发现迹象:GPT 5.4 Pro 的两道题答案待专家确认后可能构成真正的新数学贡献
  • 社区开放挑战赛机制,正确解法可发表在数学文献中

实验结果: 绝大多数 SOTA 模型得分接近 0%,揭示了当前 AI 数学发现能力的巨大空白;GPT 5.4 Pro 在 2 道题上提出了改进已知最优结果的方案(待同行评审)。

应用场景: AI 辅助数学研究、算法研究自动化、AI 推理能力评测。

研究价值: ⭐⭐⭐⭐(4/5)— 提出了一个真正意义上的"AI 能否做科学发现"评测框架,且已有初步的 AI 超人表现迹象,对理解 LLM 推理边界有重要价值。


Geometry-Grounded Spatial Agent for Scene Understanding

链接: https://arxiv.org/abs/2603.15386

一句话总结: 将空间感知与推理解耦——以明确 3D 场景图作为 LLM 的结构化接口,在 VSI-Bench 上比此前方法提升高达 16%,无需任务特化微调。

研究问题: VLM 在室内空间推理中表现欠佳,主要原因在于感知(从视频中提取几何信息)与推理(基于几何信息回答空间问题)紧耦合,错误传播且难以优化。

核心方法: 解耦范式:(1)专用感知模块从真值标注构建 3D 场景图(3DSG),显式表示物体尺寸、距离、姿态和空间关系;(2)智能体框架:LLM 通过结构化几何工具与 3DSG 交互,不直接摄入视频;(3)以 VSI-Bench 静态子集为测试平台,实验上界在理想感知条件下的空间推理能力。

技术亮点:

  • 感知-推理完全解耦:模块化设计使两个阶段可独立优化
  • 结构化几何工具集:LLM 通过暴露基本几何属性(尺寸/距离/姿态)的工具调用与 3DSG 交互
  • 无需任务特化微调:通用 LLM 即可在强几何接口下显著提升空间推理
  • 提供理想感知条件下的空间推理上界,为后续工作提供清晰参照

实验结果: 在 VSI-Bench 静态分割上较此前最优方法提升高达 16%;相较基础 VLM,智能体版本平均提升 33%-50%。

应用场景: 室内导航辅助、空间问答系统、具身智能场景理解、机器人规划。

研究价值: ⭐⭐⭐⭐(4/5)— 明确了几何结构化表示对 LLM 空间推理的决定性价值,解耦范式对具身AI感知-推理流水线设计有重要参考价值。


📊 今日研究趋势

2026-03-17 的 ArXiv 投稿以 具身AI与机器人 方向最为活跃,VLA 模型的视觉能力提升和动态环境泛化成为当日最集中的研究热点(DOMINO、DeepVision-VLA、PUMA 等多篇同日出现)。世界模型方向出现了重要的质变——从合成环境到真实城市锚定(SWM),标志着世界模型开始走向真正可用的自动驾驶仿真。视频生成方向持续精细化,重点从"生成质量"转向"精细控制"(Tri-Prompting 的三维联合控制)和"数据效率"(ViFeEdit 的无视频训练范式)。扩散模型在图像生成中依然保持高产出,区域级对齐和偏好优化是细化方向。此外,AI 能力边界评测出现了新范式——以真正未解数学问题考察 AI 原创发现能力(HorizonMath),并已出现 AI 超越人类已知最优解的初步迹象。整体上,今日论文质量偏高,具身AI与生成模型的交叉研究是明显的活跃前沿。


🏆 最值得关注的 3 篇

  1. Seoul World Model (SWM) — 将世界模型从"幻想世界"升级为"真实城市数字孪生",检索增强 + 真实地理锚定的创新架构极有可能成为下一代自动驾驶仿真的范式转变。
  2. DOMINO & PUMA — 首个系统性的动态操控基准+方法,为具身AI在动态环境下泛化能力研究奠定了数据和架构基础,预期对后续研究产生持续影响。
  3. Tri-Prompting — 视频扩散的三维联合控制框架,统一处理场景、主体、运动三类控制信号,是视频生成精细化控制研究的重要里程碑。

数据来源:ArXiv 2026-03-17 | 分析生成时间:2026-03-18 06:00 (北京时间)