ArXiv 每日精选 · 2026-05-31 | ElephantFlow's Blog

📅 本期精选来自 2026-05-31 ArXiv 最新论文，聚焦视频生成、扩散模型、世界模型、具身AI等核心方向，共 8 篇。

📄 论文精选

VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion

链接： https://arxiv.org/abs/2605.30351

一句话总结： 将 Multi-Head Latent Attention（MLA）引入视频扩散模型，用低秩潜变量替换每个注意力头的 KV 缓存，显著降低流式视频生成的内存占用，同时维持甚至超越基线质量。

研究问题： 长时序自回归视频扩散模型依赖滑动窗口 KV Cache，每个 token 需存储完整 per-head KV，是流式推理的主要内存瓶颈。现有改进集中在哪些 token 占据窗口，而非 KV 布局本身。

核心方法： 借鉴 LLM 中的 MLA 机制，将 per-head K/V 替换为共享低秩内容潜变量 + 解耦 3D-RoPE 位置键。每 token KV 内存压缩 92.7%，且不需要重新训练基础模型。

技术亮点：

KV 内存降低 92.7%，支持分钟级长视频流式生成
深入分析了为何 MLA 在视频扩散中有效（视频注意力矩阵并非低秩，但 MLA bottleneck 决定了有效秩，随机初始化即充满秩空间）
在 VBench 上长时序指标达到所评估方法最佳，吞吐量在 B200 单卡提升 1.23x
揭示了视频扩散模型注意力谱特性与 LLM 的本质差异

实验结果： VBench 评测，短时序与基线持平，长时序综合分数最优，单 B200 吞吐提升 1.23x。

应用场景： 长视频流式生成、边缘设备部署视频扩散模型、分钟级视频合成。

研究价值： ⭐⭐⭐⭐⭐（5/5）— KV Cache 压缩 92.7% 且质量不降，是视频扩散长序列生成的工程突破，同时对 MLA 迁移机制的理论分析具有独立价值。

Self-Evolving Anchors for Streaming Video Generation

链接： https://arxiv.org/abs/2605.30349

一句话总结： 将流式视频生成中的静态首帧锚点替换为每步动态演化的隐状态（AdaState），彻底消除首帧主导导致的场景静态化问题，实现更丰富的运动和自然场景演进。

研究问题： 自回归视频扩散模型将首帧 KV 作为全局参考锚点，导致注意力过度集中于首帧，抑制视频动态性，摄像机运动和场景演化受限于初始视角。

核心方法： 引入 AdaState——一个模型在每个 chunk 与内容帧一起去噪但永不渲染的隐状态。通过当前状态与前序状态的联合去噪产生演化参考，将时间编码由绝对变为相对，形成 KV Cache 驱动的递归生成过程。

技术亮点：

无需额外模块，去噪过程本身作为状态转移函数
相对时间编码使每步生成结构完全一致，支持任意长度延伸
显著提升视频中运动丰富度和场景自然演进
设计极简：仅修改 KV Cache 中一个特殊槽位的语义

实验结果： 与流式视频生成基线对比，视频动态性指标显著提升，运动丰富度和场景演进更自然。

应用场景： 长视频生成、世界模型模拟、场景探索式视频合成。

研究价值： ⭐⭐⭐⭐（4/5）— 对流式视频生成的首帧锚点问题提出了机制层面的根本性解决方案，思路精巧，工程代价极低。

How Far is Video Generation from World Model? A Causality Perspective

链接： https://arxiv.org/abs/2605.30346

一句话总结： 提出 YoCausal 基准，从因果认知角度系统评测 13 个主流视频扩散模型，发现感知时间箭头≠理解因果关系，当前最优模型与人类因果认知存在显著差距。

研究问题： 视频扩散模型在迈向"世界模型"的过程中，是真正理解因果关系还是仅仅拟合统计时序模式？现有评测多依赖合成数据，存在 sim-to-real gap。

核心方法： 基于认知科学中的违背期望（VoE）范式，通过时间反转真实视频作为反事实样本（零额外标注成本），构建两级评测体系：

Level 1（RSI）：通过去噪损失量化时间箭头感知能力
Level 2（CCI）：用 VLM 区分因果/非因果子集，分离真实因果推理与时序偏置

技术亮点：

零成本构建无限可扩展的真实世界因果评测集
首次明确区分"时间感知"与"因果推理"两个层次
对 13 个 SOTA 视频扩散模型进行系统评测
揭示了文本描述对因果精度的悖论性作用（提升语义但降低时序对齐）

实验结果： 13 个 SOTA VDM 均存在显著因果认知缺口，感知时间箭头并不意味着理解因果。

应用场景： 世界模型评测、视频生成质量评估、物理合理性验证。

研究价值： ⭐⭐⭐⭐（4/5）— 为世界模型评测提供了严谨的因果视角，揭示当前视频生成模型的根本局限，对未来研究方向具有重要指引价值。

Generative 4D Neural Object Kinematics

链接： https://arxiv.org/abs/2605.30347

一句话总结： 提出 NeuROK，一种数据驱动的神经运动学参数化方法，通过学习物体所有可能状态的低维潜空间来生成 4D 物理动力学，摆脱了对预定义物理模型的依赖。（CVPR 2026）

研究问题： 现有 4D 物理动力学生成方法依赖预定义物理模型进行系统辨识，限于特定类别和小规模数据集，难以泛化到多样动态物体。

核心方法： 学习"神经物体运动学"（NeuROK）——同时学习物体所有可能状态的潜空间表示和对应解码器（将任意采样潜向量映射到变形形状）。基于大规模 4D 数据集训练 Transformer 编解码器，将物理动力学生成简化为低维潜空间内的拉格朗日力学问题。

技术亮点：

无需预设物理模型，完全数据驱动的运动学参数化
大规模 4D 数据集支撑泛化能力
将复杂物理模拟转化为低维潜空间采样问题
跨多种动态物体类型展示强泛化性（CVPR 2026 认可）

实验结果： 在多种动态物体类型上明显优于先前工作，CVPR 2026 收录。

应用场景： 3D 世界模型中的物体动力学建模、游戏/影视物理仿真、机器人操作规划。

研究价值： ⭐⭐⭐⭐（4/5）— 对构建真实物理感知的 3D 世界模型是关键基础工作，数据驱动范式打破了物理类别壁垒。

Colored Noise Diffusion Sampling

链接： https://arxiv.org/abs/2605.30332

一句话总结： 提出 CNS，一种训练无关的随机扩散采样器，通过频率解耦的彩色噪声注入策略利用扩散模型固有的谱偏置，在 FLUX/SiT/JiT 上显著降低 FID 无需任何训练。

研究问题： 标准 SDE 求解器在整个去噪过程中均匀注入白噪声，忽视了扩散模型固有的谱偏置（低频早解析、高频晚解析），导致有限能量预算的低效使用。

核心方法： 建立 SDE 推理的数学框架，将其重新理解为目标性频率解耦能量转移。设计 CNS——依据时间步和频率动态分配注入噪声能量，将能量导向当前尚未解析的频率分量。

技术亮点：

完全训练无关，即插即用替换标准采样器
在 SiT-XL/2 上 FID 从 8.26→6.27（无引导），JiT-H/16 从 11.88→8.31
与 CFG 引导结合持续提升
理论框架清晰，实验覆盖 SiT/JiT/FLUX 多架构

实验结果： ImageNet-256 上 SiT-XL/2 FID 8.26→6.27，JiT-B/16 32.39→26.69，JiT-H/16 11.88→8.31，均无需重训练。

应用场景： 任何扩散模型推理加速/质量提升，尤其适合资源受限的部署场景。

研究价值： ⭐⭐⭐⭐（4/5）— 即插即用且效果显著，工程实用价值极高；理论层面对扩散模型谱特性的分析也有独立贡献。

链接： https://arxiv.org/abs/2605.30350

一句话总结： 提出 DynaFLIP，通过图像-语言-3D 光流三元组预训练将动力学感知注入视觉编码器上游，使机器人在分布外场景操作任务上提升最高 +22.5%。

研究问题： 现有机器人学习流水线依赖静态识别或视觉语言对齐的预训练视觉编码器，运动理解被留给下游策略，导致视觉表征对操控任务缺乏动作相关性。

核心方法： 从异构人类和机器人视频中构建图像-语言-3D 光流三元组，以此作为预训练监督信号塑造图像编码器。核心约束：三种模态在共享超球面空间中形成最小单纯形体积（同时避免坍塌），结合余弦正则化和对比目标。

技术亮点：

将动力学感知从策略级提前至感知级（上游注入）
单纯形体积最小化作为多模态对齐的几何约束
仅修改视觉编码器，兼容多种下游策略包括 VLA
分布外场景提升 +22.5%，泛化性显著

实验结果： 多种仿真和真实机器人任务上超越基线，分布外场景下提升最高 +22.5%，对 VLA 等多种策略均有增益。

应用场景： 机器人操作、具身智能感知预训练、人形机器人通用视觉骨干。

研究价值： ⭐⭐⭐⭐（4/5）— “动力学前置"的思路对机器人感知范式有启发性意义，三元组对齐方法扎实，+22.5% 的 OOD 提升具有实际说服力。

Gaze2Act: Gaze-Conditioned Vision-Language-Action Policies for Interactive Robot Manipulation

链接： https://arxiv.org/abs/2605.30282

一句话总结： 提出 Gaze2Act，将人类注视作为动态意图信号融入 VLA 框架，通过跨视角语义匹配将第一人称注视映射至机器人视角，实现精细交互操作任务 SOTA。

研究问题： 纯语言指令难以精确传达人类意图（尤其在相似目标物体消歧、精细操作点位、动态变化目标等场景）；现有 VLA 缺乏实时人类意图引导能力。

核心方法： 跨自我-外视角语义匹配将注视点从第一人称视角映射至机器人视角，产生目标掩码和注视点（粗到细目标定位）。将这些线索通过感知级提示和动作级条件化集成到 VLA 策略。

技术亮点：

利用注视这一低成本、自然、高表达力的人类意图模态
跨视角语义匹配解决 ego-exo 视角差异
在 Unitree G1 人形机器人上系统评估 7 类任务、16 个真实操作任务
在目标消歧、精细交互、动态意图引导上均超越基线

实验结果： 7 类任务 16 个真实机器人任务上 SOTA，意图精度和任务成功率均优于基线。

应用场景： 人机协作机器人操作、人形机器人交互控制、工业精细装配。

研究价值： ⭐⭐⭐⭐（4/5）— 将注视信号引入 VLA 是自然而有效的补充，在真实人形机器人上的系统验证增加了可信度，对 human-in-the-loop 机器人控制有重要参考价值。

DGSG-Mind: Dynamic 3D Gaussian Scene Graphs for Long-Term Scene Understanding and Grounding

链接： https://arxiv.org/abs/2605.29879

一句话总结： 提出 DGSG-Mind，将概率体素网格与显式 3D 高斯结合构建动态场景图，附加具身推理 Agent，实现长期场景理解、3D 视觉定位和动态更新一体化。

研究问题： 具身场景理解需要处理跨视图实例关联不稳定、拓扑变化、无法实时在线更新等挑战，现有方法或依赖 GT 3D 几何，或缺乏显式空间推理能力。

核心方法： 混合架构：概率体素网格+显式 3D 高斯实现鲁棒跨模态实例融合；Gaussian-based 视觉重定位+局部掩码细化处理动态变化；在实例高斯图上构建层次化场景图，整合结构关系、空间语义和 RoI 渲染用于多模态推理。

技术亮点：

混合体素-高斯架构兼顾鲁棒性与精度
层次化场景图支持目标导向的具身推理
在自建地图上零样本 3DVG 达到最优
部署于真实机器人，验证动态更新能力

实验结果： 自建地图上零样本 3D 视觉定位最优，3D 开放词汇语义分割和场景重建均有强表现。

应用场景： 具身 AI 场景理解、长期室内导航、机器人任务规划、AR/VR 场景交互。

研究价值： ⭐⭐⭐（3/5）— 工程整合扎实，对具身场景理解有实际价值，但方法创新性较为渐进；在真实机器人部署是加分项。

📊 今日研究趋势

2026-05-31 的 ArXiv AI 论文整体呈现三个清晰趋势：

视频生成走向长序列与物理感知。 多篇工作集中攻克流式长视频生成的内存与质量瓶颈（VideoMLA、AdaState），同时评测层面出现更严格的物理/因果性评估框架（YoCausal），表明视频生成领域正从"视觉合理"向"物理/因果真实"升级。VideoMLA 的 92.7% KV 压缩与 AdaState 的动态锚点机制代表了工程和机制两条路线的最新进展。

扩散模型采样效率持续受关注。 CNS 展示了利用扩散模型谱偏置进行无训练优化的可行性，训练无关且效果显著，预计将引发频率空间采样策略的跟进研究。

具身智能从单一模态走向多模态动力学融合。 DynaFLIP 和 Gaze2Act 分别从感知预训练和人机交互两个维度推进具身 AI，前者将运动动力学注入视觉骨干，后者引入注视作为高价值意图信号；4D 物体动力学（NeuROK）则为世界模型提供了物理仿真基础。整体来看，具身 AI 的研究中心正从策略优化转移到更底层的感知与世界理解能力。

🏆 最值得关注的 3 篇

VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion — KV 内存压缩 92.7% 且质量不降，直接解锁分钟级长视频流式生成，工程影响力极高；对 MLA 迁移机制的理论分析同样原创。
How Far is Video Generation from World Model? A Causality Perspective — 首次系统量化视频扩散模型的因果认知缺口，评测框架构建精巧（零成本真实世界反事实），对世界模型研究方向具有重要启示。
Colored Noise Diffusion Sampling — 即插即用、无需训练，在 FLUX/SiT/JiT 上均有显著 FID 提升，实用价值突出；频率解耦能量分配的理论框架为扩散采样研究开辟了新视角。

数据来源：ArXiv 2026-05-31 | 分析生成时间：2026-06-01 06:00 (北京时间)

📄 论文精选#

VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion#

Self-Evolving Anchors for Streaming Video Generation#

How Far is Video Generation from World Model? A Causality Perspective#

Generative 4D Neural Object Kinematics#

Colored Noise Diffusion Sampling#

DynaFLIP: Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation#

Gaze2Act: Gaze-Conditioned Vision-Language-Action Policies for Interactive Robot Manipulation#

DGSG-Mind: Dynamic 3D Gaussian Scene Graphs for Long-Term Scene Understanding and Grounding#

📊 今日研究趋势#

🏆 最值得关注的 3 篇#

📄 论文精选

VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion

Self-Evolving Anchors for Streaming Video Generation

How Far is Video Generation from World Model? A Causality Perspective

Generative 4D Neural Object Kinematics

Colored Noise Diffusion Sampling

DynaFLIP: Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation

Gaze2Act: Gaze-Conditioned Vision-Language-Action Policies for Interactive Robot Manipulation

DGSG-Mind: Dynamic 3D Gaussian Scene Graphs for Long-Term Scene Understanding and Grounding

📊 今日研究趋势

🏆 最值得关注的 3 篇