视频生成 | ElephantFlow's Blog

ArXiv 每日精选 · 2026-05-31

📅 本期精选来自 2026-05-31 ArXiv 最新论文，聚焦视频生成、扩散模型、世界模型、具身AI等核心方向，共 8 篇。 📄 论文精选 VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion 链接： https://arxiv.org/abs/2605.30351 一句话总结：将 Multi-Head Latent Attention（MLA）引入视频扩散模型，用低秩潜变量替换每个注意力头的 KV 缓存，显著降低流式视频生成的内存占用，同时维持甚至超越基线质量。 ...

ArXiv 每日精选 · 2026-05-30

📅 本期精选来自 2026-05-30 ArXiv 最新论文，聚焦视频扩散、流式生成、世界模型因果推理、4D运动生成、多模态数字人等核心方向，共 10 篇。 📄 论文精选 VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion 链接： https://arxiv.org/abs/2605.30351 ...

ArXiv 每日精选 · 2026-05-29

📅 本期精选来自 2026-05-29 ArXiv 最新论文，聚焦视频世界模型、扩散模型加速、具身智能、4D生成等核心方向，共 10 篇。 📄 论文精选 minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models 链接： https://arxiv.org/abs/2605.30263 一句话总结：提出 minWM，一个端到端开源框架，将现有双向视频扩散基础模型转化为可实时交互的因果自回归世界模型，支持相机控制与低延迟推理。 ...

ArXiv 每日精选 · 2026-05-28

📅 本期精选来自 2026-05-28 ArXiv 最新论文，聚焦世界模型、视频生成、具身AI、扩散模型等核心方向，共 7 篇。 📄 论文精选 Generative Multi-Agent World Modeling Beyond Two Players 链接： https://arxiv.org/abs/2605.28816 一句话总结： NVIDIA 提出首个可扩展多智能体交互世界模型，支持任意数量玩家同时独立控制，实现 24 FPS 实时生成，agent 间一致性显著优于 baseline。 ...

ArXiv 每日精选 · 2026-05-27

📅 本期精选来自 2026-05-27 ArXiv 最新论文，聚焦扩散模型、视频生成、具身AI、3D 生成等核心方向，共 8 篇。 📄 论文精选 MRT: Masked Region Transformer for Layered Image Generation and Editing at Scale 链接： https://arxiv.org/abs/2605.27235 一句话总结：提出 20B 参数的多层透明图像扩散模型 MRT，统一 text-to-layers、image-to-layers、layers-to-layers 三大任务，在速度和质量上大幅超越商业系统（CVPR 2026）。 ...

ArXiv 每日精选 · 2026-05-26

📅 本期精选来自 2026-05-26 ArXiv 最新论文，聚焦扩散模型、世界模型、视频生成、具身AI等核心方向，共 8 篇。 📄 论文精选 Reinforcing Few-step Generators via Reward-Tilted Distribution Matching 链接： https://arxiv.org/abs/2605.26108 一句话总结：提出 RTDMD 框架，将分布匹配蒸馏与奖励引导强化学习统一，在 SD3/SD3.5/FLUX 上仅用 4 步推理实现新的 SOTA。 ...

ArXiv 每日精选 · 2026-05-25

📅 本期精选来自 2026-05-25 ArXiv 最新论文，聚焦扩散模型、视频生成、世界模型、具身AI等核心方向，共 8 篇。 📄 论文精选 LaMo: Self-Supervised Latent Motion Priors for Physical Realism in Video Generation 链接： https://arxiv.org/abs/2605.23878 一句话总结：从未标注的训练视频中自监督提取运动先验，以即插即用方式显著提升视频扩散模型的物理真实性，无需任何外部监督。 ...

ArXiv 每日精选 · 2026-05-23

📅 本期精选来自 2026-05-23 ArXiv 最新论文，聚焦世界模型、扩散模型、具身AI与机器人等核心方向，共 8 篇。 📄 论文精选 WorldKV: Efficient World Memory with World Retrieval and Compression 链接： https://arxiv.org/abs/2605.22718 一句话总结：提出无需训练的 WorldKV 框架，通过 KV-cache 检索与压缩实现持久一致的世界模型记忆，解决自回归视频扩散模型中长时序一致性与实时性的核心矛盾。 ...

ArXiv 每日精选 · 2026-05-22

📅 本期精选来自 2026-05-22 ArXiv 最新论文，聚焦世界模型、具身 AI / VLA、动作生成、扩散模型等核心方向，共 10 篇。 📄 论文精选 WorldKV: Efficient World Memory with World Retrieval and Compression 链接： https://arxiv.org/abs/2605.22718 一句话总结：提出 WorldKV 框架，通过检索与压缩机制解决自回归视频扩散世界模型的长程场景一致性问题，在不微调的情况下实现近似 full-KV 的记忆保真度与约 2× 的吞吐量提升。 ...

ArXiv 每日精选 · 2026-05-16

今日论文精选本期精选 10 篇 2026-05-16 ArXiv 最新论文，重点覆盖世界模型、视频生成、扩散模型与具身AI方向。论文精选（按评分排序） 1. Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer 链接： https://arxiv.org/abs/2605.15178 一句话总结： NVIDIA 开源 2.6B 参数世界模型 SANA-WM，首次在单卡 RTX 5090 上实现 60 秒 720p 高保真视频生成，效率较同类工业基线提升 36 倍。 ...