ArXiv 每日精选 · 2026-05-29 | ElephantFlow's Blog

📅 本期精选来自 2026-05-29 ArXiv 最新论文，聚焦视频世界模型、扩散模型加速、具身智能、4D生成等核心方向，共 10 篇。

📄 论文精选

minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models

链接： https://arxiv.org/abs/2605.30263

一句话总结： 提出 minWM，一个端到端开源框架，将现有双向视频扩散基础模型转化为可实时交互的因果自回归世界模型，支持相机控制与低延迟推理。

研究问题： 如何将高质量视频扩散模型（如 Wan2.1、HY1.5）转化为实时可控的交互式世界模型？现有方法在因果性、低延迟、可控性三方面难以兼顾。

核心方法： 提出完整的 pipeline：先对双向视频扩散模型进行相机控制微调，再通过 Causal Forcing / Causal Forcing++ 流程（包含 AR 扩散训练、因果 ODE / 因果一致性蒸馏、非对称 DMD）蒸馏为少步自回归生成器，支持低延迟流式推理。框架模块化，在 Wan2.1-T2V-1.3B 和 HY1.5-TI2V-8B 两种架构上均有实例化。

技术亮点：

全栈覆盖：数据构建→可控微调→AR训练→少步蒸馏→流式推理，一体化开源
支持跨注意力和 MMDiT 两种主流架构，扩展性强
提供相机轨迹质量、可控性训练步数、最小 batch size 等实用消融实验
完整开源（脚本、checkpoints、推理代码），可直接复现

实验结果： 在 Wan2.1 和 HY1.5 骨干上均实现实时交互式世界模型，提供相机可控的少步自回归视频生成，并展示对已有世界模型（如 HY-WorldPlay）的适配能力。

应用场景： 游戏场景仿真、机器人规划仿真、交互式内容创作、自动驾驶场景推演。

研究价值： ⭐⭐⭐⭐⭐（5/5）— 世界模型方向难得一见的全栈开源工程，直接打通从基础模型到实时交互的完整链路，具有极高复现价值和工程参考意义。

VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion

链接： https://arxiv.org/abs/2605.30351

一句话总结： 将 NLP 领域的 Multi-Head Latent Attention（MLA）首次引入视频扩散模型，通过低秩共享 KV 表示将每 token KV 内存压缩 92.7%，同时在长时序视频生成上取得最优分数。

研究问题： 长视频流式扩散的 KV cache 是内存与延迟瓶颈，现有方法仅改变 token 选择策略，未触及 per-head KV 布局本身。

核心方法： 用 MLA 替换视频扩散中的标准注意力：引入共享低秩内容 latent 和解耦 3D-RoPE 位置键，将 KV cache 从 per-head 变为共享低秩形式。同时深入分析了 MLA 在视频扩散中成功的机制——与语言模型不同，预训练视频注意力并非低秩，但 MLA 的瓶颈结构决定了有效秩上限，训练过程在此预算内完成自适应。

技术亮点：

每 token KV 内存减少 92.7%，直接降低流式推理内存占用
在 VBench 上长时序视频生成综合得分最优，短时序与基线持平
单张 B200 上吞吐量提升 1.23x
首次系统分析 MLA 在视频扩散中的谱结构机制，具有理论贡献

实验结果： VBench 评测，长时序优于对比方法；单 B200 推理吞吐 +1.23x；在压缩比下 VideoMLA 表现远超谱近似基线。

应用场景： 分钟级长视频自回归生成，低内存高吞吐流式视频推理，边缘端视频扩散部署。

研究价值： ⭐⭐⭐⭐⭐（5/5）— 系统性技术创新，KV cache 压缩 92.7% 是量级上的突破，对长视频生成工业落地意义重大，且附有扎实的机制分析。

Colored Noise Diffusion Sampling (CNS)

链接： https://arxiv.org/abs/2605.30332

一句话总结： 提出彩色噪声采样（CNS），一种无需训练的即插即用扩散推理采样器，通过频率解耦的动态噪声调度主动利用扩散模型的谱偏置，显著降低 FID。

研究问题： 标准 SDE 求解器在扩散推理中全程注入均匀白噪声，忽略了扩散模型先生成低频结构、后生成高频细节的谱偏置特性，能量预算利用低效。

核心方法： 建立频率解耦能量转移的数学框架，设计依赖时间步与频率的动态噪声调度——CNS 在每个推理步骤将注入能量优先分配给当前未被模型解析的频带，而非均匀注入白噪声。完全 plug-and-play，无需修改模型权重。

技术亮点：

完全无训练，可直接替换现有 SDE 采样器
跨架构泛化：在 SiT、JiT、FLUX 上均有效
ImageNet-256 无条件生成：SiT-XL/2 FID 8.26→6.27，JiT-H/16 FID 11.88→8.31
有分类器引导时也持续改善，CFG 条件下相对提升稳定

实验结果： ImageNet-256 生成，SiT-XL/2 FID 从 8.26 降至 6.27；JiT-B/16 从 32.39 降至 26.69；JiT-H/16 从 11.88 降至 8.31；FLUX 上同样验证有效。

应用场景： 所有基于 SDE 的扩散模型推理加速，图像/视频生成质量提升，低步数采样质量改善。

研究价值： ⭐⭐⭐⭐（4/5）— 无训练即插即用的设计思路实用价值高，FID 改善幅度明显，理论框架清晰，跨架构普适性验证充分。

Self-Evolving Anchors for Streaming Video Generation (AdaState)

链接： https://arxiv.org/abs/2605.30349

一句话总结： 用自进化隐式状态替换自回归视频扩散中的静态第一帧锚点，将时间建模从绝对时间转为相对时间，显著改善生成视频的运动丰富性与场景动态。

研究问题： 自回归视频扩散模型将第一帧 KV 作为全程锚点，导致注意力被静态内容主导，抑制了场景动态、摄像机运动和场景演进，生成视频时间浅平。

核心方法： 提出 AdaState——在每个生成块，模型同步对一个不渲染的隐式 latent 状态进行去噪，该状态通过关注上一状态和当前内容生成新的场景锚点，随内容演进。将时间建模从绝对时间改为相对时间：每步生成面对相同位置结构，状态转移在所有块中一致。去噪函数即转移函数，KV cache 即状态载体，无需额外模块。

技术亮点：

无需新增外部模块，状态与生成共享去噪机制
相对时间建模天然支持任意长度流式生成，无累计误差
锚点自适应消除了静态构图锁定问题
与 KV cache 机制深度融合，工程开销最小

实验结果： 实验证明 AdaState 显著改善视频动态性，实现更丰富的运动和自然的场景演进，与静态锚点基线相比运动幅度和场景变化质量均提升。

应用场景： 长视频流式生成、动态场景视频合成、电影级场景演进视频生成。

研究价值： ⭐⭐⭐⭐（4/5）— 精准定位了自回归视频扩散的核心动态抑制问题并提出优雅解法，机制设计简洁，具有较高实践价值。

Generative 4D Neural Object Kinematics (NeuROK)

链接： https://arxiv.org/abs/2605.30347

一句话总结： 提出 NeuROK，通过数据驱动的神经运动学状态参数化，将物理仿真从预定义物理模型中解放出来，实现跨类别、大规模的 4D 动态物体生成，CVPR 2026。

研究问题： 现有 4D 物体动力学生成方法依赖预定义物理模型+系统辨识，限制了类别泛化和规模扩展；如何构建通用的数据驱动 4D 物理仿真框架？

核心方法： 学习对象中心物理系统的数据驱动运动学状态参数化：同时学习表示物体所有可能状态的潜空间，以及将任意潜空间样本映射到合理变形形状的解码器（NeuROK）。基于大规模 4D 数据集训练 Transformer encoder-decoder，将仿真归约为低维潜空间中的 Lagrange 力学问题，显著简化动力学生成。

技术亮点：

无需为每类物体定义物理模型，跨类别泛化
潜空间 Lagrange 力学：高维物理仿真→低维优化问题
大规模策划 4D 数据集支持训练
在多种动态物体类型上显著优于已有工作

实验结果： CVPR 2026 接收；在多类动态物体（弹性体、刚体等）上清晰优于先前方法；支持 text-conditioned 动态生成。

应用场景： 3D 世界模型物理仿真、游戏资产动态生成、机器人训练场景生成、数字孪生。

研究价值： ⭐⭐⭐⭐（4/5）— 将 4D 动态生成从特定物理模型解放出来，路线新颖，CVPR 2026 认可，对世界模型物理建模有直接参考价值。

How Far is Video Generation from World Model? A Causality Perspective (YoCausal)

链接： https://arxiv.org/abs/2605.30346

一句话总结： 提出 YoCausal benchmark，从因果推理角度系统评测 13 个主流视频扩散模型，揭示"感知时间箭头"≠“理解因果关系”，当前最优模型与人类因果认知仍有显著差距。

研究问题： 视频生成模型是否真正理解因果关系，还是仅拟合时序统计模式？现有评测依赖合成数据，存在 sim-to-real gap。

核心方法： YoCausal 受认知科学"期望违背范式"启发，通过零成本时间翻转真实视频构造自然反事实样本，建立可任意扩展的评估协议。Level 1 引入 Reverse Surprise Index（RSI）量化时间箭头感知；Level 2 引入 Causality Cognition Index（CCI），用 VLM 将数据集分层为因果/非因果子集，解耦真实因果推理与时序偏置。

技术亮点：

零成本反事实构造：时间翻转真实视频，无需手工标注
两级评估协议，分离时序感知与因果认知
评测 13 个 SOTA 视频扩散模型，覆盖全面
揭示关键发现：感知时间箭头≠理解因果，所有模型与人类认知仍有显著差距

实验结果： 13 个 SOTA VDM 均显示：时间箭头感知能力与因果理解能力不相关；所有模型相对人类水平存在明显因果认知差距。

应用场景： 世界模型评估基准、视频生成模型诊断、因果推理能力分析。

研究价值： ⭐⭐⭐⭐（4/5）— 精准定位视频生成模型走向世界模型的关键缺口，benchmark 设计优雅，对领域发展方向有重要指引意义。

Veda: Scalable Video Diffusion via Distilled Sparse Attention

链接： https://arxiv.org/abs/2605.30325

一句话总结： 提出 Veda，将稀疏掩码对齐问题形式化为全注意力重构，结合统计感知分块评分和头感知 tiling，在大型视频扩散模型上实现 5.1x 端到端加速，ICML 2026。

研究问题： DiT 视频扩散的自注意力计算代价随分辨率/时长二次增长；现有稀疏注意力方法在高稀疏比下质量严重退化。

核心方法： 核心洞察：生成质量不由稀疏比决定，而由稀疏掩码与全注意力 tile-wise 几何结构的对齐度决定。Veda 将 tile 选择建模为从全注意力重构的显式优化问题，引入统计感知分块评分和头感知 tiling 降低估计误差，配合硬件高效的 tile-skipping kernel 将理论稀疏度转化为实际墙钟加速。

技术亮点：

明确的几何对齐理论，比经验稀疏方法更有原则
720P 10s 视频（Waver-T2V-12B）：端到端 5.1x 加速，自注意力 10.5x 加速
注意力开销从 92% 降至 50%
加速增益随序列长度增加，高分辨率/长视频收益更大
在 Waver 和 Wan2.1 两个大模型上验证，无可见质量退化

实验结果： Waver-T2V-12B 生成 720P 10s 视频：端到端 5.1x 加速，自注意力 10.5x 加速，无质量损失；ICML 2026 接收。

应用场景： 高分辨率长视频生成加速，视频扩散工业部署，大模型推理效率优化。

研究价值： ⭐⭐⭐⭐（4/5）— 解决了视频扩散工业化的核心计算瓶颈，理论清晰，实验扎实，ICML 2026 认可，工程价值极高。

链接： https://arxiv.org/abs/2605.30350

一句话总结： 提出 DynaFLIP，通过图像-语言-3D光流三模态预训练将动态理解融入视觉编码器，使机器人感知具备动作相关性，OOD 场景下操作成功率提升 +22.5%。

研究问题： 现有机器人学习 pipeline 使用为静态识别或视觉语言对齐预训练的视觉编码器，动态理解被推迟到下游策略，导致 OOD 泛化差。

核心方法： 从人类和机器人异构视频构建图像-语言-3D光流三元组，训练时以三模态监督形塑纯图像编码器。核心思想：让三模态在共享超球面空间中形成小单纯形体积（simplex volume）——体积越小表示对齐越强。结合余弦正则化和对比目标避免几何歧义和平凡坍缩。

技术亮点：

纯图像编码器，推理时无需 3D 流或语言输入
超球面单纯形体积最小化：新颖的多模态对齐几何目标
OOD 场景下操作成功率 +22.5%，系统性泛化提升
兼容多种下游策略（VLA 等），可复用骨干

实验结果： 多仿真+真实机器人设置验证；OOD 场景成功率相对基线提升 +22.5%；相比静态/语言预训练编码器，下游多策略均有系统性提升。

应用场景： 机器人操作泛化、VLA 视觉骨干增强、人形机器人 OOD 环境适应。

研究价值： ⭐⭐⭐⭐（4/5）— 切中机器人泛化的核心痛点，三模态预训练方法新颖，实验结果有力，对具身智能视觉表示研究有直接参考价值。

Archon: A Unified Multimodal Model for Holistic Digital Human Generation

链接： https://arxiv.org/abs/2605.30311

一句话总结： 提出 Archon，首个统一七种模态（文本、音频、动作、视觉等）的整体式数字人生成模型，通过语义视频重参数化和"Thinking in Modality"链实现高保真多模态联合生成，CVPR 2026。

研究问题： 数字人生成涉及文本、音频、面部表情、身体动作、视觉外观等多种模态，现有方法均为单模态或双模态，缺乏统一建模。

核心方法： 用模态专用 tokenizer 统一七种模态，在同步多模态数据和 72 个多样任务上预训练原生自回归统一多模态模型。为解决高保真说话视频的 token 爆炸问题，引入内存高效语义视频重参数化（4x token 压缩，保留细粒度动态）及语义驱动视频扩散解码器。提出"Thinking in Modality"——将模糊跨模态任务分解为模态链式思维推理，逐步提升保真度与可控性。

技术亮点：

七模态统一预训练，72 个跨模态任务同时建模
语义视频重参数化：4x token 减少，细粒度动态保留
“Thinking in Modality”：模态链式推理，提升跨模态任务质量
CVPR 2026 接收，多任务下达到 SOTA 或可比水平

实验结果： 在多种数字人生成任务（说话头、动作生成、多模态对话）上达到 SOTA 或可比性能，CVPR 2026 接收。

应用场景： 数字人/虚拟主播生成、游戏 NPC 行为生成、影视数字替身、人机交互系统。

研究价值： ⭐⭐⭐⭐（4/5）— 数字人多模态统一生成方向的重要里程碑，CVPR 2026 认可，token 压缩和模态链式推理均有工程参考价值。

Gaze2Act: Gaze-Conditioned Vision-Language-Action Policies for Interactive Robot Manipulation

链接： https://arxiv.org/abs/2605.30282

一句话总结： 提出 Gaze2Act，利用人类视线作为动态意图信号扩展 VLA 策略，通过跨视角语义匹配解决 ego-exo 视角鸿沟，在人形机器人 16 个真实任务上实现 SOTA。

研究问题： 语言指令往往不足以精确传达人类意图（如多个相似物体中选哪个、动态意图变化），VLA 在精细操作和歧义消解任务上表现差。

核心方法： Gaze2Act 通过跨视角语义匹配将第一人称视线映射到机器人视角，产生物体掩码和视线点用于粗到精目标指定。这些线索通过感知级 prompting 和动作级条件注入策略，使机器人聚焦相关区域并在动态意图下执行精细交互。在 Unitree G1 人形机器人上部署，评测 7 类任务、16 个真实任务。

技术亮点：

视线信号：低负担、高表达力的自然人机交互模态
ego-exo 跨视角语义匹配，无需额外标定
感知级 + 动作级双层意图注入，粗细结合
Unitree G1 真实人形机器人验证，16 个任务 SOTA

实验结果： 在 7 类任务、16 个真实机器人任务上达到 SOTA；在物体歧义消解、精细交互、动态意图引导三方面显著优于基线。

应用场景： 人形机器人人机交互、精细操作辅助、动态意图引导的具身任务执行。

研究价值： ⭐⭐⭐（3/5）— 视线引导 VLA 方向新颖，真实机器人验证充分，但视线信号的获取在现实部署中仍有工程限制。

📊 今日研究趋势

2026-05-29 ArXiv AI 领域呈现以下主要趋势：视频生成与世界模型的融合是最活跃方向，minWM 代表的交互式世界模型框架、YoCausal 对因果推理的系统评测，标志着该领域从"生成质量"向"物理理解"的范式转移。扩散模型效率持续是热点，VideoMLA（KV压缩92.7%）、Veda（5.1x加速）、CNS（无训练FID改善）三篇论文从不同维度攻克长视频扩散的计算瓶颈，呈现出明显的工程成熟度提升。具身智能方向出现新交叉：DynaFLIP 将动态感知预训练引入机器人视觉，Gaze2Act 探索视线作为意图信号，表明机器人感知正在向"动作相关性"演进。4D生成（NeuROK）和全模态数字人（Archon）则代表生成模型向更高维度物理世界建模延伸的新兴方向。整体上，CVPR 2026 和 ICML 2026 论文密集涌现，顶会成果质量持续提升。

🏆 最值得关注的 3 篇

minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models — 世界模型全栈开源框架，端到端打通视频扩散→相机可控→少步自回归→实时流式推理完整链路，是当前最具复现价值的世界模型工程参考。
VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion — KV cache 压缩 92.7%，长视频 VBench 最优，首次将 MLA 引入视频扩散并配以严密机制分析，兼具工程价值与理论贡献。
Veda: Scalable Video Diffusion via Distilled Sparse Attention — 视频扩散 5.1x 端到端加速，自注意力 10.5x 加速，ICML 2026，直接解决工业级长视频生成计算瓶颈。

数据来源：ArXiv 2026-05-29 | 分析生成时间：2026-05-30 06:00 (北京时间)

📄 论文精选#

minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models#

VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion#

Colored Noise Diffusion Sampling (CNS)#

Self-Evolving Anchors for Streaming Video Generation (AdaState)#

Generative 4D Neural Object Kinematics (NeuROK)#

How Far is Video Generation from World Model? A Causality Perspective (YoCausal)#

Veda: Scalable Video Diffusion via Distilled Sparse Attention#

DynaFLIP: Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation#

Archon: A Unified Multimodal Model for Holistic Digital Human Generation#

Gaze2Act: Gaze-Conditioned Vision-Language-Action Policies for Interactive Robot Manipulation#

📊 今日研究趋势#

🏆 最值得关注的 3 篇#

📄 论文精选

minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models

VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion

Colored Noise Diffusion Sampling (CNS)

Self-Evolving Anchors for Streaming Video Generation (AdaState)

Generative 4D Neural Object Kinematics (NeuROK)

How Far is Video Generation from World Model? A Causality Perspective (YoCausal)

Veda: Scalable Video Diffusion via Distilled Sparse Attention

DynaFLIP: Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation

Archon: A Unified Multimodal Model for Holistic Digital Human Generation

Gaze2Act: Gaze-Conditioned Vision-Language-Action Policies for Interactive Robot Manipulation

📊 今日研究趋势

🏆 最值得关注的 3 篇