📅 本期精选来自 2026-05-25 ArXiv 最新论文,聚焦扩散模型、视频生成、世界模型、具身AI等核心方向,共 8 篇。


📄 论文精选

LaMo: Self-Supervised Latent Motion Priors for Physical Realism in Video Generation

链接: https://arxiv.org/abs/2605.23878

一句话总结: 从未标注的训练视频中自监督提取运动先验,以即插即用方式显著提升视频扩散模型的物理真实性,无需任何外部监督。

研究问题: 当前视频生成模型(如CogVideoX)在视觉质量上已相当出色,但生成内容仍缺乏物理一致性——物体运动不符合现实物理规律,限制了其作为世界模拟器的潜力。现有的改进方法依赖外部物理模拟器、教师模型或精心标注的物理数据,成本高且难以大规模应用。

核心方法: LaMo(Latent Motion Prior)在视频扩散模型的潜空间中建模帧间运动先验:给定当前潜变量和文本提示,预测下一帧的潜变量变化分布。该先验通过两个轻量级读出组件作用于训练和采样过程:

  • Motion Drift Loss(宏观运动漂移损失):在训练阶段施加监督,约束全局运动方向;
  • Motion Prior Guidance(运动先验引导):在采样阶段以类似 Classifier Guidance 的方式注入微观运动场。

两个组件均为即插即用,无需修改原始模型结构或输入输出接口。

技术亮点:

  • 完全自监督,仅依赖视频扩散模型本身的未标注训练数据
  • 宏观漂移 + 微观运动场双重机制,覆盖不同粒度的物理约束
  • 零结构修改、零额外推理模型调用,部署成本极低

实验结果: 在 VideoPhy 和 VideoPhy2(物理真实性专项评测集)上超越使用外部监督的物理感知基线;在 VBench 上整体生成质量不降,同时运动相关维度得分提升。

应用场景: 任意文本到视频生成系统的物理增强后处理;视频世界模型的物理保真提升;机器人仿真数据生成。

研究价值: ⭐⭐⭐⭐⭐(5/5)— 用最小的外部依赖解决了视频生成中长期悬而未决的物理一致性问题,方法通用性强、实用性高,且与当前主流视频扩散框架完全兼容。


PiD: Fast and High-Resolution Latent Decoding with Pixel Diffusion

链接: https://arxiv.org/abs/2605.23902

一句话总结: NVIDIA提出将潜变量解码重新定义为条件像素扩散,实现4×/8×超分辨率解码,在消费级GPU上512→2048px仅需1秒以内,速度比级联扩散快6倍。

研究问题: 主流潜扩散模型(LDM)和自回归模型的 VAE 解码器本质上是重建导向的,专注于逆转编码器而非合成细节,在超大分辨率下计算代价高昂且细节质量有限。如何使解码过程既快速又富有表现力?

核心方法: PiD(Pixel Diffusion Decoder)将潜变量到像素的解码过程重新表述为条件像素扩散:

  • 直接在高分辨率像素空间中去噪,统一解码与上采样为单一生成模块
  • 轻量级 sigma-aware adapter 将含噪潜变量注入像素扩散骨干网络,允许提前终止潜扩散过程(减少总推理步数)
  • 使用 DMD2 进行蒸馏,将推理步数压缩至 4 步
  • 同时支持传统 VAE 潜变量和语义潜变量(SigLIP、DINOv2)

技术亮点:

  • 无需配对的高分辨率训练数据,利用扩散先验直接合成超分细节
  • 在 RTX 5090 上 512×512 → 2048×2048 峰值显存仅 13 GB,耗时 <1s
  • 在 GB200 上最快 210ms,比级联扩散超分管线快约 6 倍
  • 兼容 RAE 架构(基于 SigLIP/DINOv2 语义潜变量的新型生成模型)

实验结果: 视觉保真度优于级联扩散超分管线,同时推理速度提升约 6 倍;支持 4× 和 8× 上采样倍率。

应用场景: 高分辨率图像/视频生成系统的解码加速;实时超分辨率输出;部署于资源受限环境的大规模生成服务。

研究价值: ⭐⭐⭐⭐⭐(5/5)— 来自 NVIDIA 研究院,重新定义了扩散模型的解码范式,技术创新显著,工程实用性极强,对整个生成模型生态有深远影响。


Geo-Align: Video Generation Alignment via Metric Geometry Reward

链接: https://arxiv.org/abs/2605.23903

一句话总结: 首个专为相机控制视频重渲染设计的强化学习框架,通过度量几何感知奖励消除对配对真实多视角数据的依赖,显著提升相机轨迹控制精度。

研究问题: 现有的相机控制视频生成方法主要依赖合成数据集的监督微调(SFT),而真实世界的同步多视角视频数据极度匮乏。导致模型在处理分布外真实视频时泛化性差,难以精确遵循物理尺度和相机轨迹。

核心方法: Geo-Align 构建首个 RL 框架用于相机控制视频重渲染:

  • 在预训练模型基础上,通过尺度感知感知奖励机制优化模型
  • 引入度量3D估计器从生成视频中提取精确相机轨迹,对旋转和平移偏差显式惩罚
  • 设计基于真实条件视频与合成相机轨迹的数据管线,完全消除对配对数据的依赖

技术亮点:

  • RL 框架突破了 SFT 对标注数据的强依赖
  • 度量级3D几何奖励确保相机运动的物理精度,而非仅优化感知质量
  • 真实视频条件 + 合成轨迹的混合数据策略降低了数据收集门槛

实验结果: 在相机可控性和视觉保真度两个维度上均超越现有 SFT 监督学习基线;对分布外真实视频具有更强的泛化能力。

应用场景: 影视制作中的虚拟相机控制;AR/VR 场景的视角合成;自动驾驶数据增强。

研究价值: ⭐⭐⭐⭐(4/5)— 将强化学习引入相机控制视频生成是重要方向,几何奖励的设计思路新颖;但整体工作规模和 benchmark 范围有限。


Learning a Particle Dynamics Model with Real-world Videos

链接: https://arxiv.org/abs/2605.23845

一句话总结: 提出首个直接从未标注真实世界视频学习粒子动力学世界模型的框架,通过 Gaussian Splatting + 渲染监督消除对仿真数据的依赖。

研究问题: 数据驱动的物理仿真(即神经世界模型)通常只能在仿真环境中训练,因为真实世界中获取完整的状态信息(场景点云、时间对应关系)极为困难。仿真到真实的迁移间隙严重限制了这类模型的实际应用价值。

核心方法: 提出基于 Gaussian Splatting 的粒子动力学学习框架:

  • 将物体建模为高斯粒子(带尺度和旋转属性的密集粒子集合)
  • 训练一个神经网络预测粒子在时间上的位置和旋转变化
  • 渲染监督(预测帧与真实帧的渲染差异)替代粒子级标注监督
  • 直接作用于密集高斯,无需启发式子采样锚点
  • 构建了包含约500段视频的真实世界多物体交互数据集

技术亮点:

  • 渲染监督完全绕开对粒子级标注的需求
  • 高斯表示天然具备可微渲染能力,训练信号直接来自像素空间
  • CVPR 2026 Findings,实验验证充分

实验结果: CVPR 2026 Findings,在自建真实世界数据集上验证了从视频直接学习动力学的可行性;对多种刚体、柔性体交互均有效。

应用场景: 机器人操作的世界模型;交互式物理场景仿真;视频预测与规划。

研究价值: ⭐⭐⭐⭐⭐(5/5)— 将世界模型从仿真数据拓展到真实视频是根本性突破,方法优雅,和具身AI的连接极为紧密,CVPR 2026 验证了其学术价值。


GenRecon: Bridging Generative Priors for Multi-View 3D Scene Reconstruction

链接: https://arxiv.org/abs/2605.23888

一句话总结: 将最先进的生成式3D模型(Trellis.2)的物体级先验提升至场景级多视角3D重建,重建质量比现有方法提升16%。

研究问题: 现有多视角3D重建方法缺乏强生成先验的支撑,在遮挡、稀疏视角、复杂光照等条件下往往产生不完整或低保真的结果。如何将现有强大的生成3D模型的先验扩展到大规模场景重建?

核心方法: 将场景重建建模为在空间分块(overlapping chunks)上的条件3D生成问题:

  • 将最先进的生成形状模型 Trellis.2 泛化到场景级别
  • 提出投影条件机制:将多视角图像特征提升为与生成模型对齐的连贯3D表示,独立于视角顺序,空间锚定于场景
  • 生成高保真、多视角一致的几何,产出可编辑的 PBR 网格重建
  • 分块生成策略使方法可扩展至大场景范围

技术亮点:

  • 继承 Trellis.2 的高保真生成能力,首次将其泛化至场景级
  • 投影条件机制保证多视角一致性,无需视角排序
  • 输出可编辑 PBR 网格,直接服务于下游应用
  • 比最先进重建方法高 16%

实验结果: 在室内场景重建上比最先进方法提升 16%(几何保真度指标)。

应用场景: 3D场景数字化;VR/AR内容创作;机器人环境建模;电影特效。

研究价值: ⭐⭐⭐⭐(4/5)— 将生成先验引入场景级3D重建的思路重要,16%的提升幅度显著;目前限于以平面结构为主的室内场景。


SMoDP: Semantically Structured Mixture-of-Experts for Compositional Robotic Manipulation

链接: https://arxiv.org/abs/2605.23477

一句话总结: 提出基于语义任务结构的混合专家扩散策略,用 VLM 驱动的技能预测器将操作动作路由至专业化专家,显著提升多任务机器人操作的参数效率和泛化能力。

研究问题: 扩散策略(Diffusion Policy)在精细机器人操作上表现出色,但面临严峻的可扩展性瓶颈:高性能模型计算代价高,轻量模型又难以跨多任务泛化。现有 MoE 路由机制依赖低级噪声或潜变量统计,忽视了操作任务的组合性本质,导致可复用行为碎片化。

核心方法: SMoDP(Semantically Structured Mixture-of-Experts Diffusion Policy):

  • 使用轻量级推理时技能预测器(由 VLM 离线标注监督)将动作块路由到针对特定行为阶段的专家
  • 提出双对比对齐策略:跨模态对齐(将多模态观测锚定到语言定义的技能语义)+ 模态内一致性(跨视觉差异但功能相似的行为保持路由一致)
  • 通过 PEFT 实现对新任务的组合迁移

技术亮点:

  • 语义驱动的专家路由,每个专家专注于特定操作阶段(抓取/移动/放置等)
  • VLM 提供丰富的语义监督信号,无需人工精细标注
  • 接受 RSS 2026,方法系统性强

实验结果: 在多任务操作基准上超越代表性扩散策略和 MoE 基线,参数效率显著提升;通过 PEFT 可有效迁移至新颖任务。

应用场景: 多任务机器人操作;机器人技能组合与迁移;具身智能中的指令理解与执行。

研究价值: ⭐⭐⭐⭐(4/5)— RSS 2026 录用,将 MoE 与扩散策略结合是机器人领域重要方向,语义专家路由解决了核心的可解释性和泛化问题。


Any2Any: Efficient Cross-Embodiment Transfer for Humanoid Whole-Body Tracking

链接: https://arxiv.org/abs/2605.23733

一句调总结: 提出高效跨具身迁移范式,仅用1%的计算量和数据量即可将整体身体跟踪模型从一种人形机器人迁移至另一种,实现媲美全量训练的性能。

研究问题: 全身跟踪(WBT)模型是人形机器人的核心基础,但从头训练代价极高。每当引入新平台时都需要重新训练,严重制约了人形机器人技术的快速部署和迭代。

核心方法: Any2Any 跨具身迁移范式:

  1. 运动学对齐:将源和目标人形机器人的输入/输出空间对齐,使预训练策略可直接在目标硬件上有意义地复用
  2. 动力学自适应:对动力学敏感的模块施加轻量级 PEFT 组件,保留行为先验的同时适配目标机器人的动力学特性

技术亮点:

  • 仅需1%的全训练计算量和数据量
  • 成功将 Unitree G1 预训练的 Sonic 模型迁移至 LimX Oli 和 LimX Luna
  • 运动学对齐 + 动力学 PEFT 的解耦设计思路清晰
  • 在多个人形平台和预训练骨干上验证

实验结果: 相比从头训练,收敛速度大幅加快,训练成本大幅降低;跟踪性能与从头训练相当或更优。

应用场景: 人形机器人快速平台适配;具身AI基础模型的跨硬件部署;机器人技能迁移。

研究价值: ⭐⭐⭐⭐(4/5)— 解决了具身AI领域迫切的工程难题,1%资源完成迁移的结论令人信服,为人形机器人规模化部署扫清了重要障碍。


SkillOpt: Executive Strategy for Self-Evolving Agent Skills

链接: https://arxiv.org/abs/2605.23904

一句话总结: 首个系统化的文本空间智能体技能优化器,将技能文档视为外部可训练状态,以类梯度下降的方式在反馈中稳定迭代优化,跨6个基准、7种模型、3种执行框架全面领先。

研究问题: 当前智能体技能要么手工编写,要么一次性生成,要么通过松散的自我修订演化,都缺乏像深度学习优化器那样稳定、可复现的改进机制——无法在反馈下可靠地提升技能质量。

核心方法: SkillOpt 将技能文档视为冻结智能体的外部可训练参数:

  • 独立的优化器模型将评分的执行轨迹(rollouts)转化为对技能文档的有界增删改操作
  • 只有严格提升验证集分数的编辑才被接受(类似梯度更新中的提升门控)
  • 文本学习率预算 + 拒绝编辑缓冲区 + epoch级慢速/元更新确保训练稳定性
  • 部署时零额外推理调用

技术亮点:

  • 首次将权重空间优化的严谨性引入文本空间技能优化
  • 跨模型、跨执行框架(Direct Chat、Codex、Claude Code)的广泛验证
  • 在 GPT-5.5 上平均提升无技能准确率 +23.5(直接对话)/ +24.8(Codex)/ +19.1(Claude Code)
  • 优化的技能工件可跨模型规模和执行环境迁移

实验结果: 跨6个基准、7个目标模型、3个执行框架(52个评估单元)均达到最优或并列最优;超越人工技能、一次性LLM生成、TextGrad、GEPA、EvoSkill等所有竞争方法。

应用场景: 自主智能体的持续能力提升;多步骤代码生成任务;企业级AI助手的技能管理系统。

研究价值: ⭐⭐⭐⭐(4/5)— 智能体自进化能力是AGI路线上的重要节点,SkillOpt的系统化框架和大规模实验验证令人印象深刻;但技能文档作为优化变量的范式能否扩展至更复杂任务仍待验证。


📊 今日研究趋势

2026-05-25 ArXiv AI 论文呈现三条清晰的主线:

视频生成走向"物理可信"。 LaMo 和 Geo-Align 均聚焦于让视频生成模型理解物理规律——前者从自监督运动先验入手,后者借助强化学习和几何奖励实现相机精确控制。视频生成已不满足于"看起来真实",正向"物理上真实"迈进,这是世界模型落地的关键前提。

生成模型基础设施升级。 PiD 重新定义了潜扩散解码范式,将解码本身变成生成过程;GenRecon 将生成先验从物体级提升至场景级。两者共同指向:生成模型的每个组件都有机会用扩散/生成的视角重新设计。

具身智能进入规模化部署期。 Any2Any 的 1% 资源跨具身迁移、SMoDP 的语义MoE操作策略,都在解决一个核心问题:如何让已有的强大模型快速适配新场景/新硬件,而非每次从头训练。这标志着具身AI从"能做到"向"可规模化部署"转变。


🏆 最值得关注的 3 篇

  1. Learning a Particle Dynamics Model with Real-world Videos — 首次将神经世界模型从仿真数据拓展到真实视频学习,CVPR 2026 Findings,方法优雅,是具身AI与世界模型融合的重要里程碑。
  2. PiD: Fast and High-Resolution Latent Decoding with Pixel Diffusion — NVIDIA将扩散范式引入解码过程,6倍加速+更高质量,对整个潜扩散模型生态具有根本性影响。
  3. LaMo: Self-Supervised Latent Motion Priors for Physical Realism in Video Generation — 以最小额外代价显著提升视频扩散的物理保真度,即插即用,是视频世界模型方向的重要进展。

数据来源:ArXiv 2026-05-25 | 分析生成时间:2026-05-26 06:00 (北京时间)