今日论文精选
本期精选 10 篇 2026-05-16 ArXiv 最新论文,重点覆盖世界模型、视频生成、扩散模型与具身AI方向。
论文精选(按评分排序)
1. Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer
链接: https://arxiv.org/abs/2605.15178
一句话总结: NVIDIA 开源 2.6B 参数世界模型 SANA-WM,首次在单卡 RTX 5090 上实现 60 秒 720p 高保真视频生成,效率较同类工业基线提升 36 倍。
研究问题: 当前大规模世界模型普遍存在计算成本高、推理硬件需求苛刻、公开数据稀缺等瓶颈,限制了学术界和小型团队的研究参与度。
核心方法: 提出 SANA-WM,围绕四项核心设计构建:
- Hybrid Linear Attention:帧级 Gated DeltaNet(GDN)与 softmax attention 混合,实现内存高效的长上下文建模;
- Dual-Branch Camera Control:6-DoF 相机轨迹精确跟随;
- Two-Stage Generation Pipeline:长视频细化器提升连贯性;
- Robust Annotation Pipeline:从公开视频自动提取 metric-scale 6-DoF 相机位姿。
技术亮点:
- 仅使用约 213K 条公开视频片段(含 metric-scale 位姿标注)完成训练,数据规模极小
- 64 张 H100 训练 15 天,单卡 RTX 5090 + NVFP4 量化,34 秒生成 60s/720p 视频
- 蒸馏变体在 throughput 上较 prior open-source baselines 提升 36×,同时维持相当视觉质量
实验结果: 在自建一分钟世界模型 benchmark 上,action-following 精度超越现有开源基线,视觉质量与 LingBot-World、HY-WorldPlay 等工业基线相当。
应用场景: 自动驾驶仿真、机器人世界模型预训练、游戏场景生成、具身AI环境模拟。
研究价值: ⭐⭐⭐⭐⭐(5/5)— 首个将分钟级高保真世界模型推进到消费级单卡可运行的开源方案,极大降低世界模型研究门槛。NVIDIA 出品,工程完成度高,实际影响力不可忽视。
2. Scalable Few-Step Autoregressive Diffusion Distillation for Real-Time Interactive Video Generation
链接: https://arxiv.org/abs/2605.15141
一句话总结: Causal Forcing++ 提出因果一致性蒸馏(Causal CD)实现帧级自回归视频生成的 1–2 步采样,超越 SOTA 4 步方案,并扩展至 action-conditioned 世界模型(Genie3 精神)。
研究问题: 现有自回归扩散蒸馏方法受限于粒度粗(chunk 级)和采样延迟高;激进的单帧 1–2 步生成场景下,few-step AR 学生模型的初始化成为关键瓶颈。
核心方法: 提出 Causal CD(因果一致性蒸馏),无需预计算完整 PF-ODE 轨迹,仅利用相邻时间步间单次在线 teacher ODE 步进行监督,学习与 causal ODE 蒸馏等价的 AR 条件流映射。
技术亮点:
- Causal CD 初始化效率高、优化更容易,Stage 2 训练成本降低 ~4×
- 帧级 2 步设置下,VBench Total +0.1、VBench Quality +0.3、VisionReward +0.335(vs SOTA 4 步方案)
- 首帧延迟降低 50%,可直接扩展至 action-conditioned 世界模型生成
实验结果: 在 VBench 多维度评估中,帧级 2 步 Causal Forcing++ 全面超越 chunk 级 4 步 Causal Forcing,同时训练和推理效率显著提升。
应用场景: 实时交互视频游戏、具身 AI 世界模型、低延迟流式视频生成。
研究价值: ⭐⭐⭐⭐⭐(5/5)— 在实时世界模型方向上迈出坚实一步,蒸馏框架设计简洁有效,代码已开源(thu-ml),与 Genie3 方向对齐,是近期视频生成领域最有价值的技术突破之一。
3. Real-time Autoregressive Video Extrapolation with Consistency-model GRPO
链接: https://arxiv.org/abs/2605.15190
一句话总结: RAVEN 通过训练时测试框架消除自回归视频扩散模型的 history 分布偏移,并提出 CM-GRPO 将强化学习直接应用于一致性模型采样步骤。
研究问题: Causal 自回归视频扩散模型在推理时历史帧分布与训练分布不匹配,导致长时生成质量急剧下降;现有 RL 方法在 flow model 上的应用依赖 Euler-Maruyama 辅助过程。
核心方法:
- RAVEN:将每次自回归 rollout 重新打包为清洁历史端点与含噪去噪状态的交错序列,使训练 attention 对齐推理时外推,并允许下游 chunk 损失监督历史表示
- CM-GRPO:将一致性采样步骤形式化为条件高斯转移,直接在该 kernel 上应用在线 RL,避免 Euler-Maruyama 辅助过程
技术亮点:
- 解决了 AR 视频生成的训练-推理 distribution shift 问题
- CM-GRPO 是首个将 GRPO 直接应用于一致性模型的 RL 框架
- 两者结合在质量、语义和动态度评估上均超越近期基线
实验结果: RAVEN 在质量(quality)、语义(semantic)和动态度(dynamic degree)三个维度上全面超越近期因果视频蒸馏基线;CM-GRPO 在 RAVEN 基础上带来额外提升。
应用场景: 实时流式视频生成、interactive 视频世界模型、AR 视频游戏引擎。
研究价值: ⭐⭐⭐⭐(4/5)— CM-GRPO 是方法论上的重要创新,为一致性模型与 RL 的结合提供了新范式;RAVEN 的训练框架设计也有较高参考价值。
4. Towards Entity-Consistent Long-Range Multi-Shot Video Generation
链接: https://arxiv.org/abs/2605.15199
一句话总结: 提出 EntityBench 基准和 EntityMem 记忆增强生成系统,系统性解决长序列多镜头视频中角色/物体/场景一致性问题。
研究问题: 多镜头视频生成中,随着镜头数增加,跨镜头实体(角色、物体、场景)一致性急剧退化;现有评测方法独立生成、覆盖有限,难以标准化比较。
核心方法:
- EntityBench:从真实叙事媒体中构建 140 集(2491 个镜头)的基准,含 easy/medium/hard 三个难度级别(最多 50 镜头、13 个跨镜角色、最长 48 帧间隔)
- EntityMem:生成前在持久记忆库中为每个实体存储经验证的视觉参考,引导后续跨镜头生成
技术亮点:
- 三支柱评测套件:intra-shot quality、prompt-following alignment、cross-shot consistency 解耦评估
- Fidelity gate 机制:仅将准确实体外观纳入跨镜头评分,避免错误膨胀
- EntityMem 在角色保真度上 Cohen’s d = +2.33,领先所有对比方法
实验结果: 实验显示跨镜头实体一致性随复现间隔急剧下降;EntityMem 在角色保真度和出现率上均最高。代码和数据集已开源。
应用场景: 长片视频生成、影视内容制作、动画故事生成。
研究价值: ⭐⭐⭐⭐(4/5)— 在多镜头视频生成这一重要但评测标准欠缺的方向上填补空白,benchmark 设计严谨,实际指导价值高。
5. Enhancing Visual Generation with Conditional Video Decoding
链接: https://arxiv.org/abs/2605.15196
一句话总结: RefDecoder 通过向视频 VAE 解码器注入高保真参考帧信号,系统性解决 latent diffusion video generation 中解码器无条件导致的细节丢失和不一致问题。
研究问题: Latent diffusion 视频生成标准架构中,去噪网络高度条件化,但解码器通常无条件,导致与输入图像相比存在显著的细节损失和不一致性。
核心方法: RefDecoder:轻量级图像编码器将参考帧映射为高维细节 token,通过 reference attention 在每个解码器上采样阶段与去噪视频 latent token 联合处理。
技术亮点:
- 直接插入现有视频生成系统,无需额外微调(plug-and-play)
- 支持多种 decoder backbone(Wan 2.1、VideoVAE+),具有良好通用性
- 超越无条件基线最高 +2.1dB PSNR(Inter4K、WebVid、Large Motion 基准)
实验结果: 在 VBench I2V benchmark 上,subject consistency、background consistency 和 overall quality 全面提升。在 Inter4K、WebVid、Large Motion 重建基准上 PSNR 提升最高 2.1dB。
应用场景: Image-to-Video 生成、视频编辑细化、风格迁移、任意视频 VAE 解码质量提升。
研究价值: ⭐⭐⭐⭐(4/5)— 以最小的架构修改解决了 video generation pipeline 中长期被忽视的解码器侧问题,即插即用的特性使其具有广泛的实用价值。
6. Aligning Latent Geometry for Spherical Flow Matching in Image Generation
链接: https://arxiv.org/abs/2605.15193
一句话总结: 通过分析 latent token 的径向-角向分解,提出将 flow matching 路径替换为球面线性插值(slerp),使得生成路径全程在球面上,改善 ImageNet-256 class-conditional FID。
研究问题: Latent flow matching 使用 Gaussian noise → VAE latent 的线性传输路径,但两端点都集中在球壳上,欧式弦路径会偏离球面,导致次优的速度场和生成质量。
核心方法:
- Component-swap probe 揭示:latent token 的语义/感知内容主要由方向(角向)编码,径向贡献极小
- 将数据 latent 投影到固定 token 半径,Gaussian noise 取球面投影作为先验,解码器微调后冻结编码器
- 用球面线性插值(slerp)替换线性插值,路径全程保持在球面,速度目标纯角向
技术亮点:
- 无需辅助编码器或表示对齐目标,架构不变
- 跨不同 image tokenizer 在 ImageNet-256 FID 上持续改善
- 对 latent 几何结构提供了深刻的理论分析
实验结果: 在 class-conditional ImageNet-256 上,跨多种 image tokenizer 的 FID 指标持续优于 baseline,不引入额外参数或架构修改。
应用场景: 基于 flow matching 的图像/视频生成模型,尤其适用于 latent diffusion 框架。
研究价值: ⭐⭐⭐⭐(4/5)— 从几何视角为 flow matching 提供了有理论支撑的改进,简洁优雅,适用范围广,对扩散/flow模型研究者有重要启发。
7. Minute-Scale Human Animation via Latent Flow Restoration
链接: https://arxiv.org/abs/2605.15042
一句话总结: EverAnimate 通过持久 latent context memory 和 Restorative Flow Matching 解决长时人体动作视频生成中的质量漂移和身份漂移问题,90 秒场景 PSNR/SSIM 提升 15%/15%。
研究问题: 长时间人体动作视频生成面临双重漂移:低层质量漂移(背景渐变退化)和高层语义漂移(角色身份和视角属性不一致),chunk-based 方法无法有效控制累积误差。
核心方法:
- Persistent Latent Propagation:跨 chunk 维护 context memory,在 latent 空间传播身份和动作同时减缓时序遗忘
- Restorative Flow Matching:通过速度调整引入隐式恢复目标,改善 chunk 内保真度
- 仅需轻量 LoRA 微调
技术亮点:
- 10 秒场景:PSNR/SSIM 提升 8%/7%,LPIPS/FID 降低 22%/11%
- 90 秒场景:PSNR/SSIM 提升 15%/15%,LPIPS/FID 降低 32%/27%(增益随时长增大)
- 同时在短时和长时场景超越 SOTA
实验结果: 在 10 秒和 90 秒两个场景下均超越 state-of-the-art 长动作生成方法,且增益随时长显著增加。
应用场景: 长视频人体动作生成、虚拟角色动画、影视数字人制作。
研究价值: ⭐⭐⭐⭐(4/5)— 针对长时生成漂移的双路解决方案设计精巧,实验增益随时长扩大的特性说明方法具有良好可扩展性。
8. Generalizable Camera-Controlled Video Generation from One Training Video
链接: https://arxiv.org/abs/2605.15182
一句话总结: Warp-as-History 将相机驱动的图像翻转(warp)转化为伪历史帧,无需训练即可实现零样本相机轨迹跟随,结合单视频 LoRA 微调可泛化至未见视频。
研究问题: 相机控制视频生成通常需要在大规模相机标注视频上进行后训练;无训练方案则依赖测试时优化,代价昂贵。
核心方法: Warp-as-History:给定目标相机轨迹,从过去观测构建相机翻转伪历史,通过目标帧位置编码对齐和可见 token 选择,将其注入模型的视觉历史通路。
技术亮点:
- 零样本相机跟随:无需训练、架构修改或测试时优化
- 轻量离线 LoRA 微调(仅一个相机标注视频)即可泛化至未见视频
- 无需目标视频自适应,改善相机跟随、视觉质量和运动动态
实验结果: 在多个数据集上验证有效性,相机轨迹跟随精度、视觉质量和运动动态均有明显提升。
应用场景: 相机可控视频生成、影视虚拟拍摄、3D 场景漫游视频。
研究价值: ⭐⭐⭐⭐(4/5)— 接口设计极简,零样本能力令人印象深刻,LoRA 单视频微调的低成本泛化方案对工业应用友好。
9. A Lightweight Depth-Enhanced Vision-Language-Action Model
链接: https://arxiv.org/abs/2605.14950
一句话总结: 提出轻量深度增强 VLA 模型,无需额外深度传感器,通过从 RGB 隐式建模空间信息提升机器人操作的精确空间理解能力。
研究问题: VLA 模型主要依赖 2D 视觉表示,缺乏深度信息导致精确空间理解困难;显式 3D 输入(深度图/点云)增加系统复杂度和传感器依赖;大型几何基础模型计算成本高。
核心方法: 从 RGB 观测中隐式建模 3D 感知空间信息,轻量化设计避免引入大型几何模型,同时兼顾训练和部署成本。
技术亮点:
- 无需额外深度传感器,仅基于 RGB 输入实现深度感知
- 轻量架构降低 VLA 部署成本
- 联合感知、语言接地与动作生成的统一框架
实验结果: 在机器人操作基准上验证了深度增强策略的有效性,在需要精确空间理解的任务上相比标准 VLA 有显著改善。
应用场景: 机器人抓取与操作、具身智能体任务执行、工业机器人臂控。
研究价值: ⭐⭐⭐⭐(4/5)— 在 VLA 方向上提出了实用的空间感知增强方案,轻量化的设计思路对于实际机器人系统部署有重要价值。
10. An Agentic System for Scalable Articulated 3D Asset Generation
链接: https://arxiv.org/abs/2605.15187
一句话总结: Articraft 利用 LLM 驱动的 Agent 系统自动编写程序生成关节化 3D 资产,构建了包含 10K+ 资产(245 类别)的 Articraft-10K 数据集,服务机器人仿真与 VR 应用。
研究问题: 关节化 3D 物体理解受限于大规模多样化数据集的匮乏,现有生成方法和通用编码 Agent 生成质量不足。
核心方法:
- 将关节化 3D 资产生成问题转化为程序编写问题
- Articraft Agent:针对领域特定 SDK(定义部件、组合几何、指定关节、编写验证测试)自动编写代码
- Harness 提供受限工作区和接口,返回结构化反馈,让 LLM 专注于语义层面
技术亮点:
- 高质量 3D 资产生成,超越 SOTA 关节资产生成器和通用编码 Agent
- 构建 Articraft-10K:10K+ 关节资产,245 类别,可用于训练关节资产模型
- 同时服务机器人仿真和 VR 下游应用
实验结果: Articraft 生成资产质量显著优于现有关节资产生成器和通用编码 Agent(GPT 系列),Articraft-10K 数据集被证明在下游模型训练和应用中具有实用价值。
应用场景: 机器人仿真数据生成、虚拟现实内容创作、3D 资产管线自动化。
研究价值: ⭐⭐⭐(3/5)— Agentic 框架设计新颖,Articraft-10K 数据集对社区有贡献价值,但核心方法较依赖 LLM 能力,理论创新相对有限。
今日研究趋势
2026-05-16 研究趋势总结
本日 ArXiv 论文集中体现以下三条主线:
① 世界模型走向实用化。SANA-WM 将分钟级高保真视频世界模型推入消费级单卡可运行区间(RTX 5090),Causal Forcing++ 将实时交互世界模型推进至帧级 1–2 步采样。两项工作均强调效率-质量平衡,标志着世界模型研究从"能不能做"转向"能不能用"。
② 视频生成基础设施全面升级。从 VAE 解码器(RefDecoder)、相机控制接口(Warp-as-History)、长时生成稳定性(EverAnimate、RAVEN),到多镜头实体一致性评测(EntityBench),多个视频生成管线关键环节同日获得改进,折射出该方向研究进入系统性完善阶段。
③ 具身 AI 对轻量化空间感知的需求。Articraft 和 Depth-Enhanced VLA 代表两条路线:前者用 LLM Agent 解决数据稀缺,后者通过隐式深度建模降低硬件依赖,均指向机器人部署的现实约束。
最值得关注的 3 篇
| 排名 | 论文 | 核心亮点 |
|---|---|---|
| 🥇 | SANA-WM (2605.15178) | 单卡 RTX 5090 生成 60s/720p 视频,世界模型民主化 |
| 🥈 | Causal Forcing++ (2605.15141) | 帧级 2 步超越 4 步 SOTA,实时世界模型新基准 |
| 🥉 | RAVEN + CM-GRPO (2605.15190) | 首个将 GRPO 应用于一致性模型的 RL 框架 |
数据来源:ArXiv 2026-05-16 | 分析生成时间:2026-05-17 06:00 (北京时间)