ArXiv 每日精选 · 2026-05-30 | ElephantFlow's Blog

📅 本期精选来自 2026-05-30 ArXiv 最新论文，聚焦视频扩散、流式生成、世界模型因果推理、4D运动生成、多模态数字人等核心方向，共 10 篇。

📄 论文精选

VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion

链接： https://arxiv.org/abs/2605.30351

一句话总结： 将 Multi-Head Latent Attention（MLA）引入视频扩散模型，以 92.7% 的 KV 内存压缩比实现分钟级别流式视频生成，并在 VBench 长时域任务上达到最优评分。

研究问题： 自回归视频扩散模型在生成长视频时，每帧的 KV Cache 占用是内存和延迟的主要瓶颈；现有方法主要在"哪些 token 进窗口"上做文章，而未触动每头 KV 的底层布局。

核心方法： 将 MLA（最初用于语言模型的低秩键值压缩机制）迁移到视频扩散模型。VideoMLA 将每头独立的 K/V 替换为一个共享低秩内容隐变量加一个解耦 3D-RoPE 位置键，每个 token 的 KV 内存减少 92.7%。

技术亮点：

KV 内存压缩率高达 92.7%，每层缓存全部受益
实验发现预训练视频注意力并非低秩（99% 能量有效秩远高于实际隐变量维度），揭示 MLA 在视频领域奏效的真实机制：是 MLA 瓶颈本身（而非谱结构）决定有效秩
吞吐量在单 B200 GPU 上提升 1.23×，VBench 长时域综合得分超过所有对比方法

实验结果： VBench 评测；短时域与基线持平，长时域整体得分最优；吞吐量 1.23× 提升。

应用场景： 分钟级长视频流式生成、视频内容创作、实时视频生成部署。

研究价值： ⭐⭐⭐⭐⭐（5/5）— 在视频扩散领域成功移植 MLA，且对"为何有效"给出了严谨的理论分析，对视频生成效率研究具有标志性意义。

Self-Evolving Anchors for Streaming Video Generation

链接： https://arxiv.org/abs/2605.30349

一句话总结： 用自适应隐变量状态替换流式视频生成中的静态第一帧锚点，通过引入隐式循环结构，解决长视频生成中场景冻结和运动压抑问题。

研究问题： 自回归视频扩散模型结构上以第一帧 KV 表示作为全局参考，导致模型过度依赖初始帧，抑制运动动态，视频随时间推移趋于静止。

核心方法： 提出 AdaState——一种与内容并行去噪但从不渲染输出的隐变量状态。每步生成时，模型通过联合注意前一帧状态和当前内容来更新这一自适应锚点，使场景参考随生成内容动态演化。去噪过程本身充当状态转移函数，KV Cache 充当载体，无需引入任何外部模块。

技术亮点：

将时间处理从绝对位置编码转为相对时间结构，每步生成的位置结构完全一致，天然支持任意长度生成
循环机制完全内化在扩散过程中，无额外模块
显著改善视频动态：运动更丰富、场景自然演进

实验结果： 对比多个流式视频生成基线，视频动态指标（运动幅度、场景多样性）均有实质提升。

应用场景： 长视频无限流式生成、动态场景视频创作、影视级内容生产。

研究价值： ⭐⭐⭐⭐⭐（5/5）— 对流式视频生成的核心架构问题（静态锚点约束）提出了优雅的循环解法，思路新颖，适用面广。

Veda: Scalable Video Diffusion via Distilled Sparse Attention

链接： https://arxiv.org/abs/2605.30325

一句话总结： 通过将稀疏注意力 mask 对齐问题形式化为全注意力的显式重构问题，实现对大型视频扩散模型注意力的大幅加速，720P 10秒视频端到端速度提升 5.1×。

研究问题： DiT 类视频扩散模型中自注意力的二次复杂度严重限制了高分辨率长视频的生成效率，现有稀疏注意力方案在高稀疏率下质量下降明显。

核心方法： Veda（蒸馏稀疏注意力框架）将 tile 选择建模为对完整注意力的显式重构问题，结合统计感知 tile 评分和 head 感知 tile 划分，降低估计误差和结构失配，并通过硬件高效的 tile 跳过 kernel 将理论稀疏度转化为实际加速。

技术亮点：

生成质量由稀疏 mask 与全注意力的 tile 级几何对齐程度决定（而非稀疏率本身），这一洞察支撑了整个方法设计
720P 10秒视频生成：端到端 5.1×加速，自注意力 10.5×加速，注意力开销从 92% 降至 50%
加速增益随序列长度增加而增大，天然适配高分辨率长视频场景

实验结果： 在 Waner-T2V-12B 和 Wan2.1 两个大型商用级视频扩散模型上验证；ICML 2026 录用。

应用场景： 高分辨率长视频生成加速、视频扩散模型工程部署优化。

研究价值： ⭐⭐⭐⭐（4/5）— 工程价值极高，方法有理论支撑，在主流商用模型上验证了实际效果。

YoCausal: How Far is Video Generation from World Model? A Causality Perspective

链接： https://arxiv.org/abs/2605.30346

一句话总结： 提出 YoCausal 基准，用真实视频时间翻转作为零成本反事实样本，系统评测 13 个顶级视频生成模型的因果推理能力，揭示感知时间箭头与理解因果关系之间的巨大鸿沟。

研究问题： 视频扩散模型在迈向世界模型的过程中，是否真正具备因果推理能力，还是仅在统计时序模式上过拟合？现有评测依赖合成数据，存在 sim-to-real gap。

核心方法： 基于认知科学中的"违反预期"（VoE）范式构建双层评测体系。Level 1 通过反转真实视频构建天然反事实样本，用去噪损失量化"时间箭头感知"（RSI 指标）；Level 2 借助 VLM 将数据集分层为因果/非因果子集，剥离时序偏差，评测真正的因果认知能力（CCI 指标）。

技术亮点：

零成本构建反事实样本（时间翻转真实视频），可无限扩展评测集规模
揭示关键发现：感知时间方向 ≠ 理解因果关系，当前最优 VDM 与人类水平因果认知存在显著差距
对 13 个 SOTA 视频生成模型进行系统评测

实验结果： 13 个 SOTA VDM 均在因果认知层面落后于人类水平，时序感知能力不等价于因果推理能力。

应用场景： 视频生成模型评测、世界模型能力边界研究、因果推理 AI 基准。

研究价值： ⭐⭐⭐⭐（4/5）— 提出了一个极其简洁却直击要害的评测框架，对"视频生成≠世界模型"这一核心议题给出了实证依据。

NeuROK: Generative 4D Neural Object Kinematics

链接： https://arxiv.org/abs/2605.30347

一句话总结： 通过学习数据驱动的运动状态参数化空间（Neural Object Kinematics），使 4D 动态物体仿真摆脱对预定义物理模型的依赖，在 CVPR 2026 上发表。

研究问题： 生成真实的 4D 物体动态（物体在不同物理条件下的时序形变）是构建完整 3D 世界模型的关键难题，现有方法假设预定义物理模型并估计系统参数，限于特定类别和小规模数据集。

核心方法： 提出 NeuROK，学习两个核心组件：(1) 表示物体所有可能状态的隐空间；(2) 将任意采样的隐变量映射到合理形变形状的解码器。基于大规模 4D 数据集训练 Transformer 编解码模型，将 4D 动态生成问题简化为拉格朗日力学视角下低维隐空间中的动力学建模。

技术亮点：

首次以数据驱动方式学习通用运动状态参数化，突破类别限制
将物理仿真问题解耦为隐空间动力学，大幅降低生成复杂度
在多种动态物体类型上泛化良好，显著优于现有方法

实验结果： 在多类动态物体（弹性体、塑性体等）上评测，对比先前工作有明显优势；CVPR 2026 录用。

应用场景： 物理仿真、3D 世界模型构建、游戏/影视动态物体生成、机器人环境建模。

研究价值： ⭐⭐⭐⭐（4/5）— 为 4D 生成开辟了数据驱动的通用路径，与世界模型构建高度相关，CVPR 2026 的背书进一步确认了其学术价值。

Archon: A Unified Multimodal Model for Holistic Digital Human Generation

链接： https://arxiv.org/abs/2605.30311

一句话总结： Archon 是一个完全预训练的以人为中心的统一多模态模型，将文本、音频、动作、视觉内容等七种模态统一在单一自回归框架中，实现数字人全模态联合生成，CVPR 2026 录用。

研究问题： 现有数字人生成方法各自针对特定模态（外观、语音、动作），缺乏能建模跨模态联合分布的统一框架。

核心方法： 统一七种模态的分词器，训练原生自回归统一多模态模型，在同步多模态数据和 72 种多样任务上预训练；针对高保真说话人视频的 token 爆炸问题，提出语义视频重参数化，实现 4× token 压缩同时保留细粒度动态，并配合语义驱动的视频扩散解码器；提出"Thinking in Modality"，将跨模态模糊任务分解为模态链式推理逐步增强保真度。

技术亮点：

七模态统一建模，覆盖数字人全生命周期
语义视频重参数化实现 4× token 减少，同时保留动态质量
“Thinking in Modality” 链式推理提升跨模态可控性

实验结果： 在多种数字人生成任务上达到 SOTA 或可比性能；CVPR 2026 录用。

应用场景： 虚拟主播、数字人交互、影视虚拟角色创作、元宇宙化身生成。

研究价值： ⭐⭐⭐⭐（4/5）— 数字人全模态统一建模的完整解决方案，工程实用性强，CVPR 2026 的学术认可度高。

CNS: Colored Noise Diffusion Sampling

链接： https://arxiv.org/abs/2605.30332

一句话总结： 提出一种无需训练的彩色噪声扩散采样器，通过时步与频率相关的动态能量注入策略，显著提升扩散模型图像生成质量（SiT-XL/2 FID 从 8.26 降至 6.27）。

研究问题： 扩散模型的生成轨迹本质上存在频谱偏差（低频全局结构先解析，高频细节后解析），但传统 SDE 求解器全程注入均匀白噪声，未利用这一特性，浪费了有限的能量预算。

核心方法： 建立数学框架将 SDE 推断重新定性为目标化的频率解耦能量转移，提出彩色噪声采样（CNS）：使用时步和频率相关的动态调度，将注入能量优先分配给当前仍未解析的频率带，主动利用模型的频谱偏差引导生成分布向真实数据流形靠拢。

技术亮点：

完全无需重新训练，即插即用的推断期采样器替换
跨架构泛化（SiT、JiT、FLUX 均有效）
ImageNet-256 无引导 FID：SiT-XL/2 从 8.26→6.27，JiT-B/16 从 32.39→26.69，JiT-H/16 从 11.88→8.31

实验结果： ImageNet-256 基准；多架构均显著提升无引导 FID，CFG 引导场景下亦有一致相对提升。

应用场景： 图像生成质量提升（训练无关）、扩散模型推断加速与质量优化、通用图像合成。

研究价值： ⭐⭐⭐⭐（4/5）— 理论框架清晰，实证效果扎实，即插即用特性使其具有极强的工程落地价值，是扩散采样领域近期罕见的高质量工作。

REST3D: Reconstructing Physically Stable 3D Scenes from a Single Image

链接： https://arxiv.org/abs/2605.30338

一句话总结： 通过将物理场景理解与物理约束优化相结合，从单张 RGB 图像重建出具有物理稳定性的 3D 场景，解决物体漂浮和穿透等物理不一致问题。

研究问题： 现有单图 3D 重建方法忽视物理约束，产生几何合理但物理不稳定的场景（物体漂浮、穿透），无法直接用于物理仿真。

核心方法： REST3D 提出 Agentic 物理场景理解技术，以重力-支撑视角构建 scene-tree 表示，捕捉物体物理状态和物体间关系；基于此结构用 image-to-3D 模型初始化场景，然后通过 scene-tree 引导的对齐和物理约束优化消解物理冲突，同时保持与输入图像的视觉一致性。

技术亮点：

首次将 Agentic 物理理解引入单图 3D 重建
scene-tree 表示同时捕捉物理状态与物体间关系
在保持重建质量的同时，物理误差显著减少，仿真稳定性明显提升

实验结果： 合成数据集和真实世界数据集上均优于基线方法；进一步在 VR 人机交互场景中验证了重建结果的实用性。

应用场景： 物理仿真就绪的 3D 资产生成、VR/AR 交互内容、机器人环境建模、具身 AI 场景理解。

研究价值： ⭐⭐⭐（3/5）— 连接 3D 生成与物理仿真的重要桥梁，对具身智能和世界模型的落地有实际价值，但整体创新度属渐进式改进。

GR3D: Grounded 3D-Aware Spatial Vision-Language Modeling

链接： https://arxiv.org/abs/2605.30307

一句话总结： 在单一框架内整合显式 2D 定位、隐式 2D 定位和单目 3D 定位三种能力，通过 grounding 作为归纳偏置全面提升视觉语言模型的空间理解性能，CVPR 2026 录用。

研究问题： 视觉语言模型（VLM）在空间理解任务上的表现受限，缺乏将 2D 感知与 3D 推理统一融合的机制。

核心方法： GR3D 提出隐式 grounding 机制，在生成过程中识别实体提及并将对应区域 token 插入文本流，使模型在产生空间推理时能随时引用视觉证据；同时设计区域提示式单目 3D 定位，从 grounded 区域查询预测相机视图下的 3D 边界框，配合内参感知归一化和密集几何监督。

技术亮点：

三种 grounding 能力在单框架内统一
隐式 grounding 机制在生成时动态插入视觉证据引用
在 grounded 和非 grounded 空间基准上均有一致提升，验证 grounding 的通用归纳偏置价值

实验结果： 多个空间理解基准上一致性能提升；CVPR 2026 录用（NVIDIA + MIT/UCSD 联合工作）。

应用场景： 具身 AI 空间推理、机器人场景理解、3D 视觉问答、自动驾驶感知。

研究价值： ⭐⭐⭐（3/5）— 扎实的工程实现，三合一 grounding 框架有明确创新，对具身 AI 的感知层有直接贡献。

LoMo: Local Modality Substitution for Deeper Vision-Language Fusion

链接： https://arxiv.org/abs/2605.30265

一句话总结： 通过将文本片段动态替换为渲染图像构建跨模态交织序列，解决 VLM 的"载体敏感性"问题，在 13 个多模态基准上显著提升跨模态融合质量。

研究问题： VLM 将文本替换为语义等价的渲染图像时，性能急剧下降（载体敏感性），根本原因是训练数据中文本与图像角色的结构性不对称偏差。

核心方法： 提出 LoMo（局部模态替换），一种轻量级、架构无关的数据策划范式：动态选择目标文本片段并将其重铸为渲染图像，生成"文本-视觉-文本"无缝交织的多模态序列，为跨模态表示不变性提供训练监督。

技术亮点：

无需架构修改，作为数据策略即可使用
动态构建跨模态交织序列，提供细粒度语义等价监督
在 LLaVA-OneVision-1.5-8B 上提升 +2.67 分，Qwen3.5-9B 上提升 +2.82 分

实验结果： 13 个多模态基准上均有一致提升；相比标准 SFT 有明显增益。

应用场景： VLM 多模态融合提升、OCR/图文理解、跨模态推理。

研究价值： ⭐⭐⭐（3/5）— 发现了一个被忽视的训练数据偏差问题并给出了简洁解法，工程可复现性强，增益实质且稳定。

📊 今日研究趋势

2026-05-30 的 ArXiv AI 领域呈现出几个鲜明趋势：视频生成效率是最热的议题，VideoMLA、Veda、AdaState 三篇同日出现，分别从 KV Cache 压缩、稀疏注意力加速、流式生成架构三个维度解决长视频生成的计算瓶颈，反映出视频扩散已从"能不能生成"进入"如何规模化高效生成"阶段。世界模型因果能力成为新的评测热点，YoCausal 的出现标志着社区开始用更严格的标准审视视频生成模型离真正世界模型还有多远。4D 生成与物理仿真加速融合，NeuROK 和 REST3D 都在打通生成模型与物理引擎的壁垒，为具身 AI 和机器人提供更真实的环境表征。多模态统一方向仍在深化，Archon 和 GR3D 代表了两类路径——全模态统一预训练与任务特化多能力集成，共同推动 VLM 走向更完整的感知-生成闭环。

🏆 最值得关注的 3 篇

VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion — 将 MLA 压缩机制成功移植到视频扩散，内存减少 92.7%，并对机制给出了严谨的理论分析，是视频生成效率研究的重要里程碑。
Self-Evolving Anchors for Streaming Video Generation — 对流式视频生成的核心架构缺陷（静态锚点压抑运动动态）提出了优雅的循环隐变量解法，思路干净，适用范围广，有望成为流式生成新标准范式。
CNS: Colored Noise Diffusion Sampling — 零训练成本的即插即用扩散采样器，理论清晰，跨架构泛化，实证 FID 提升显著，是近期扩散模型采样领域少见的高完成度工作。

数据来源：ArXiv 2026-05-30 | 分析生成时间：2026-05-31 06:00 (北京时间)

📄 论文精选#

VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion#

Self-Evolving Anchors for Streaming Video Generation#

Veda: Scalable Video Diffusion via Distilled Sparse Attention#

YoCausal: How Far is Video Generation from World Model? A Causality Perspective#

NeuROK: Generative 4D Neural Object Kinematics#

Archon: A Unified Multimodal Model for Holistic Digital Human Generation#

CNS: Colored Noise Diffusion Sampling#

REST3D: Reconstructing Physically Stable 3D Scenes from a Single Image#

GR3D: Grounded 3D-Aware Spatial Vision-Language Modeling#

LoMo: Local Modality Substitution for Deeper Vision-Language Fusion#

📊 今日研究趋势#

🏆 最值得关注的 3 篇#

📄 论文精选

VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion

Self-Evolving Anchors for Streaming Video Generation

Veda: Scalable Video Diffusion via Distilled Sparse Attention

YoCausal: How Far is Video Generation from World Model? A Causality Perspective

NeuROK: Generative 4D Neural Object Kinematics

Archon: A Unified Multimodal Model for Holistic Digital Human Generation

CNS: Colored Noise Diffusion Sampling

REST3D: Reconstructing Physically Stable 3D Scenes from a Single Image

GR3D: Grounded 3D-Aware Spatial Vision-Language Modeling

LoMo: Local Modality Substitution for Deeper Vision-Language Fusion

📊 今日研究趋势

🏆 最值得关注的 3 篇