ArXiv 每日精选 · 2026-05-16 | ElephantFlow's Blog

今日论文精选

本期精选 10 篇 2026-05-16 ArXiv 最新论文，重点覆盖世界模型、视频生成、扩散模型与具身AI方向。

论文精选（按评分排序）

1. Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

链接： https://arxiv.org/abs/2605.15178

一句话总结： NVIDIA 开源 2.6B 参数世界模型 SANA-WM，首次在单卡 RTX 5090 上实现 60 秒 720p 高保真视频生成，效率较同类工业基线提升 36 倍。

研究问题： 当前大规模世界模型普遍存在计算成本高、推理硬件需求苛刻、公开数据稀缺等瓶颈，限制了学术界和小型团队的研究参与度。

核心方法： 提出 SANA-WM，围绕四项核心设计构建：

Hybrid Linear Attention：帧级 Gated DeltaNet（GDN）与 softmax attention 混合，实现内存高效的长上下文建模；
Dual-Branch Camera Control：6-DoF 相机轨迹精确跟随；
Two-Stage Generation Pipeline：长视频细化器提升连贯性；
Robust Annotation Pipeline：从公开视频自动提取 metric-scale 6-DoF 相机位姿。

技术亮点：

仅使用约 213K 条公开视频片段（含 metric-scale 位姿标注）完成训练，数据规模极小
64 张 H100 训练 15 天，单卡 RTX 5090 + NVFP4 量化，34 秒生成 60s/720p 视频
蒸馏变体在 throughput 上较 prior open-source baselines 提升 36×，同时维持相当视觉质量

实验结果： 在自建一分钟世界模型 benchmark 上，action-following 精度超越现有开源基线，视觉质量与 LingBot-World、HY-WorldPlay 等工业基线相当。

应用场景： 自动驾驶仿真、机器人世界模型预训练、游戏场景生成、具身AI环境模拟。

研究价值： ⭐⭐⭐⭐⭐（5/5）— 首个将分钟级高保真世界模型推进到消费级单卡可运行的开源方案，极大降低世界模型研究门槛。NVIDIA 出品，工程完成度高，实际影响力不可忽视。

2. Scalable Few-Step Autoregressive Diffusion Distillation for Real-Time Interactive Video Generation

链接： https://arxiv.org/abs/2605.15141

一句话总结： Causal Forcing++ 提出因果一致性蒸馏（Causal CD）实现帧级自回归视频生成的 1–2 步采样，超越 SOTA 4 步方案，并扩展至 action-conditioned 世界模型（Genie3 精神）。

研究问题： 现有自回归扩散蒸馏方法受限于粒度粗（chunk 级）和采样延迟高；激进的单帧 1–2 步生成场景下，few-step AR 学生模型的初始化成为关键瓶颈。

核心方法： 提出 Causal CD（因果一致性蒸馏），无需预计算完整 PF-ODE 轨迹，仅利用相邻时间步间单次在线 teacher ODE 步进行监督，学习与 causal ODE 蒸馏等价的 AR 条件流映射。

技术亮点：

Causal CD 初始化效率高、优化更容易，Stage 2 训练成本降低 ~4×
帧级 2 步设置下，VBench Total +0.1、VBench Quality +0.3、VisionReward +0.335（vs SOTA 4 步方案）
首帧延迟降低 50%，可直接扩展至 action-conditioned 世界模型生成

实验结果： 在 VBench 多维度评估中，帧级 2 步 Causal Forcing++ 全面超越 chunk 级 4 步 Causal Forcing，同时训练和推理效率显著提升。

应用场景： 实时交互视频游戏、具身 AI 世界模型、低延迟流式视频生成。

研究价值： ⭐⭐⭐⭐⭐（5/5）— 在实时世界模型方向上迈出坚实一步，蒸馏框架设计简洁有效，代码已开源（thu-ml），与 Genie3 方向对齐，是近期视频生成领域最有价值的技术突破之一。

3. Real-time Autoregressive Video Extrapolation with Consistency-model GRPO

链接： https://arxiv.org/abs/2605.15190

一句话总结： RAVEN 通过训练时测试框架消除自回归视频扩散模型的 history 分布偏移，并提出 CM-GRPO 将强化学习直接应用于一致性模型采样步骤。

研究问题： Causal 自回归视频扩散模型在推理时历史帧分布与训练分布不匹配，导致长时生成质量急剧下降；现有 RL 方法在 flow model 上的应用依赖 Euler-Maruyama 辅助过程。

核心方法：

RAVEN：将每次自回归 rollout 重新打包为清洁历史端点与含噪去噪状态的交错序列，使训练 attention 对齐推理时外推，并允许下游 chunk 损失监督历史表示
CM-GRPO：将一致性采样步骤形式化为条件高斯转移，直接在该 kernel 上应用在线 RL，避免 Euler-Maruyama 辅助过程

技术亮点：

解决了 AR 视频生成的训练-推理 distribution shift 问题
CM-GRPO 是首个将 GRPO 直接应用于一致性模型的 RL 框架
两者结合在质量、语义和动态度评估上均超越近期基线

实验结果： RAVEN 在质量（quality）、语义（semantic）和动态度（dynamic degree）三个维度上全面超越近期因果视频蒸馏基线；CM-GRPO 在 RAVEN 基础上带来额外提升。

应用场景： 实时流式视频生成、interactive 视频世界模型、AR 视频游戏引擎。

研究价值： ⭐⭐⭐⭐（4/5）— CM-GRPO 是方法论上的重要创新，为一致性模型与 RL 的结合提供了新范式；RAVEN 的训练框架设计也有较高参考价值。

4. Towards Entity-Consistent Long-Range Multi-Shot Video Generation

链接： https://arxiv.org/abs/2605.15199

一句话总结： 提出 EntityBench 基准和 EntityMem 记忆增强生成系统，系统性解决长序列多镜头视频中角色/物体/场景一致性问题。

研究问题： 多镜头视频生成中，随着镜头数增加，跨镜头实体（角色、物体、场景）一致性急剧退化；现有评测方法独立生成、覆盖有限，难以标准化比较。

核心方法：

EntityBench：从真实叙事媒体中构建 140 集（2491 个镜头）的基准，含 easy/medium/hard 三个难度级别（最多 50 镜头、13 个跨镜角色、最长 48 帧间隔）
EntityMem：生成前在持久记忆库中为每个实体存储经验证的视觉参考，引导后续跨镜头生成

技术亮点：

三支柱评测套件：intra-shot quality、prompt-following alignment、cross-shot consistency 解耦评估
Fidelity gate 机制：仅将准确实体外观纳入跨镜头评分，避免错误膨胀
EntityMem 在角色保真度上 Cohen’s d = +2.33，领先所有对比方法

实验结果： 实验显示跨镜头实体一致性随复现间隔急剧下降；EntityMem 在角色保真度和出现率上均最高。代码和数据集已开源。

应用场景： 长片视频生成、影视内容制作、动画故事生成。

研究价值： ⭐⭐⭐⭐（4/5）— 在多镜头视频生成这一重要但评测标准欠缺的方向上填补空白，benchmark 设计严谨，实际指导价值高。

5. Enhancing Visual Generation with Conditional Video Decoding

链接： https://arxiv.org/abs/2605.15196

一句话总结： RefDecoder 通过向视频 VAE 解码器注入高保真参考帧信号，系统性解决 latent diffusion video generation 中解码器无条件导致的细节丢失和不一致问题。

研究问题： Latent diffusion 视频生成标准架构中，去噪网络高度条件化，但解码器通常无条件，导致与输入图像相比存在显著的细节损失和不一致性。

核心方法： RefDecoder：轻量级图像编码器将参考帧映射为高维细节 token，通过 reference attention 在每个解码器上采样阶段与去噪视频 latent token 联合处理。

技术亮点：

直接插入现有视频生成系统，无需额外微调（plug-and-play）
支持多种 decoder backbone（Wan 2.1、VideoVAE+），具有良好通用性
超越无条件基线最高 +2.1dB PSNR（Inter4K、WebVid、Large Motion 基准）

实验结果： 在 VBench I2V benchmark 上，subject consistency、background consistency 和 overall quality 全面提升。在 Inter4K、WebVid、Large Motion 重建基准上 PSNR 提升最高 2.1dB。

应用场景： Image-to-Video 生成、视频编辑细化、风格迁移、任意视频 VAE 解码质量提升。

研究价值： ⭐⭐⭐⭐（4/5）— 以最小的架构修改解决了 video generation pipeline 中长期被忽视的解码器侧问题，即插即用的特性使其具有广泛的实用价值。

6. Aligning Latent Geometry for Spherical Flow Matching in Image Generation

链接： https://arxiv.org/abs/2605.15193

一句话总结： 通过分析 latent token 的径向-角向分解，提出将 flow matching 路径替换为球面线性插值（slerp），使得生成路径全程在球面上，改善 ImageNet-256 class-conditional FID。

研究问题： Latent flow matching 使用 Gaussian noise → VAE latent 的线性传输路径，但两端点都集中在球壳上，欧式弦路径会偏离球面，导致次优的速度场和生成质量。

核心方法：

Component-swap probe 揭示：latent token 的语义/感知内容主要由方向（角向）编码，径向贡献极小
将数据 latent 投影到固定 token 半径，Gaussian noise 取球面投影作为先验，解码器微调后冻结编码器
用球面线性插值（slerp）替换线性插值，路径全程保持在球面，速度目标纯角向

技术亮点：

无需辅助编码器或表示对齐目标，架构不变
跨不同 image tokenizer 在 ImageNet-256 FID 上持续改善
对 latent 几何结构提供了深刻的理论分析

实验结果： 在 class-conditional ImageNet-256 上，跨多种 image tokenizer 的 FID 指标持续优于 baseline，不引入额外参数或架构修改。

应用场景： 基于 flow matching 的图像/视频生成模型，尤其适用于 latent diffusion 框架。

研究价值： ⭐⭐⭐⭐（4/5）— 从几何视角为 flow matching 提供了有理论支撑的改进，简洁优雅，适用范围广，对扩散/flow模型研究者有重要启发。

7. Minute-Scale Human Animation via Latent Flow Restoration

链接： https://arxiv.org/abs/2605.15042

一句话总结： EverAnimate 通过持久 latent context memory 和 Restorative Flow Matching 解决长时人体动作视频生成中的质量漂移和身份漂移问题，90 秒场景 PSNR/SSIM 提升 15%/15%。

研究问题： 长时间人体动作视频生成面临双重漂移：低层质量漂移（背景渐变退化）和高层语义漂移（角色身份和视角属性不一致），chunk-based 方法无法有效控制累积误差。

核心方法：

Persistent Latent Propagation：跨 chunk 维护 context memory，在 latent 空间传播身份和动作同时减缓时序遗忘
Restorative Flow Matching：通过速度调整引入隐式恢复目标，改善 chunk 内保真度
仅需轻量 LoRA 微调

技术亮点：

10 秒场景：PSNR/SSIM 提升 8%/7%，LPIPS/FID 降低 22%/11%
90 秒场景：PSNR/SSIM 提升 15%/15%，LPIPS/FID 降低 32%/27%（增益随时长增大）
同时在短时和长时场景超越 SOTA

实验结果： 在 10 秒和 90 秒两个场景下均超越 state-of-the-art 长动作生成方法，且增益随时长显著增加。

应用场景： 长视频人体动作生成、虚拟角色动画、影视数字人制作。

研究价值： ⭐⭐⭐⭐（4/5）— 针对长时生成漂移的双路解决方案设计精巧，实验增益随时长扩大的特性说明方法具有良好可扩展性。

8. Generalizable Camera-Controlled Video Generation from One Training Video

链接： https://arxiv.org/abs/2605.15182

一句话总结： Warp-as-History 将相机驱动的图像翻转（warp）转化为伪历史帧，无需训练即可实现零样本相机轨迹跟随，结合单视频 LoRA 微调可泛化至未见视频。

研究问题： 相机控制视频生成通常需要在大规模相机标注视频上进行后训练；无训练方案则依赖测试时优化，代价昂贵。

核心方法： Warp-as-History：给定目标相机轨迹，从过去观测构建相机翻转伪历史，通过目标帧位置编码对齐和可见 token 选择，将其注入模型的视觉历史通路。

技术亮点：

零样本相机跟随：无需训练、架构修改或测试时优化
轻量离线 LoRA 微调（仅一个相机标注视频）即可泛化至未见视频
无需目标视频自适应，改善相机跟随、视觉质量和运动动态

实验结果： 在多个数据集上验证有效性，相机轨迹跟随精度、视觉质量和运动动态均有明显提升。

应用场景： 相机可控视频生成、影视虚拟拍摄、3D 场景漫游视频。

研究价值： ⭐⭐⭐⭐（4/5）— 接口设计极简，零样本能力令人印象深刻，LoRA 单视频微调的低成本泛化方案对工业应用友好。

9. A Lightweight Depth-Enhanced Vision-Language-Action Model

链接： https://arxiv.org/abs/2605.14950

一句话总结： 提出轻量深度增强 VLA 模型，无需额外深度传感器，通过从 RGB 隐式建模空间信息提升机器人操作的精确空间理解能力。

研究问题： VLA 模型主要依赖 2D 视觉表示，缺乏深度信息导致精确空间理解困难；显式 3D 输入（深度图/点云）增加系统复杂度和传感器依赖；大型几何基础模型计算成本高。

核心方法： 从 RGB 观测中隐式建模 3D 感知空间信息，轻量化设计避免引入大型几何模型，同时兼顾训练和部署成本。

技术亮点：

无需额外深度传感器，仅基于 RGB 输入实现深度感知
轻量架构降低 VLA 部署成本
联合感知、语言接地与动作生成的统一框架

实验结果： 在机器人操作基准上验证了深度增强策略的有效性，在需要精确空间理解的任务上相比标准 VLA 有显著改善。

应用场景： 机器人抓取与操作、具身智能体任务执行、工业机器人臂控。

研究价值： ⭐⭐⭐⭐（4/5）— 在 VLA 方向上提出了实用的空间感知增强方案，轻量化的设计思路对于实际机器人系统部署有重要价值。

10. An Agentic System for Scalable Articulated 3D Asset Generation

链接： https://arxiv.org/abs/2605.15187

一句话总结： Articraft 利用 LLM 驱动的 Agent 系统自动编写程序生成关节化 3D 资产，构建了包含 10K+ 资产（245 类别）的 Articraft-10K 数据集，服务机器人仿真与 VR 应用。

研究问题： 关节化 3D 物体理解受限于大规模多样化数据集的匮乏，现有生成方法和通用编码 Agent 生成质量不足。

核心方法：

将关节化 3D 资产生成问题转化为程序编写问题
Articraft Agent：针对领域特定 SDK（定义部件、组合几何、指定关节、编写验证测试）自动编写代码
Harness 提供受限工作区和接口，返回结构化反馈，让 LLM 专注于语义层面

技术亮点：

高质量 3D 资产生成，超越 SOTA 关节资产生成器和通用编码 Agent
构建 Articraft-10K：10K+ 关节资产，245 类别，可用于训练关节资产模型
同时服务机器人仿真和 VR 下游应用

实验结果： Articraft 生成资产质量显著优于现有关节资产生成器和通用编码 Agent（GPT 系列），Articraft-10K 数据集被证明在下游模型训练和应用中具有实用价值。

应用场景： 机器人仿真数据生成、虚拟现实内容创作、3D 资产管线自动化。

研究价值： ⭐⭐⭐（3/5）— Agentic 框架设计新颖，Articraft-10K 数据集对社区有贡献价值，但核心方法较依赖 LLM 能力，理论创新相对有限。

今日研究趋势

2026-05-16 研究趋势总结

本日 ArXiv 论文集中体现以下三条主线：

① 世界模型走向实用化。SANA-WM 将分钟级高保真视频世界模型推入消费级单卡可运行区间（RTX 5090），Causal Forcing++ 将实时交互世界模型推进至帧级 1–2 步采样。两项工作均强调效率-质量平衡，标志着世界模型研究从"能不能做"转向"能不能用"。

② 视频生成基础设施全面升级。从 VAE 解码器（RefDecoder）、相机控制接口（Warp-as-History）、长时生成稳定性（EverAnimate、RAVEN），到多镜头实体一致性评测（EntityBench），多个视频生成管线关键环节同日获得改进，折射出该方向研究进入系统性完善阶段。

③ 具身 AI 对轻量化空间感知的需求。Articraft 和 Depth-Enhanced VLA 代表两条路线：前者用 LLM Agent 解决数据稀缺，后者通过隐式深度建模降低硬件依赖，均指向机器人部署的现实约束。

最值得关注的 3 篇

排名	论文	核心亮点
🥇	SANA-WM (2605.15178)	单卡 RTX 5090 生成 60s/720p 视频，世界模型民主化
🥈	Causal Forcing++ (2605.15141)	帧级 2 步超越 4 步 SOTA，实时世界模型新基准
🥉	RAVEN + CM-GRPO (2605.15190)	首个将 GRPO 应用于一致性模型的 RL 框架

数据来源：ArXiv 2026-05-16 | 分析生成时间：2026-05-17 06:00 (北京时间)

今日论文精选#

论文精选（按评分排序）#

1. Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer#

2. Scalable Few-Step Autoregressive Diffusion Distillation for Real-Time Interactive Video Generation#

3. Real-time Autoregressive Video Extrapolation with Consistency-model GRPO#

4. Towards Entity-Consistent Long-Range Multi-Shot Video Generation#

5. Enhancing Visual Generation with Conditional Video Decoding#

6. Aligning Latent Geometry for Spherical Flow Matching in Image Generation#

7. Minute-Scale Human Animation via Latent Flow Restoration#

8. Generalizable Camera-Controlled Video Generation from One Training Video#

9. A Lightweight Depth-Enhanced Vision-Language-Action Model#

10. An Agentic System for Scalable Articulated 3D Asset Generation#

今日研究趋势#

最值得关注的 3 篇#

今日论文精选

论文精选（按评分排序）

1. Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

2. Scalable Few-Step Autoregressive Diffusion Distillation for Real-Time Interactive Video Generation

3. Real-time Autoregressive Video Extrapolation with Consistency-model GRPO

4. Towards Entity-Consistent Long-Range Multi-Shot Video Generation

5. Enhancing Visual Generation with Conditional Video Decoding

6. Aligning Latent Geometry for Spherical Flow Matching in Image Generation

7. Minute-Scale Human Animation via Latent Flow Restoration

8. Generalizable Camera-Controlled Video Generation from One Training Video

9. A Lightweight Depth-Enhanced Vision-Language-Action Model

10. An Agentic System for Scalable Articulated 3D Asset Generation

今日研究趋势

最值得关注的 3 篇