ArXiv 每日精选 · 2026-06-02

📅 本期精选来自 2026-06-02 ArXiv 最新论文,聚焦世界模型、视频生成、具身智能、机器人操作等核心方向,共 9 篇。 📄 论文精选 From Zero to Hero: Training-Free Custom Concept Spawning in World Models 链接: https://arxiv.org/abs/2606.02575 一句话总结: 提出 SPAWN,一种免训练的方法,可将用户指定的视觉概念(角色、道具、建筑等)无缝注入自回归世界模型,无需任何微调。 ...

2026年6月3日 · 12 分钟 · 5768 字 · elephantflow

ArXiv 每日精选 · 2026-06-01

📅 本期精选来自 2026-06-01 ArXiv 最新论文,聚焦扩散模型、世界模型、视频生成、具身AI等核心方向,共 8 篇。 📄 论文精选 Towards Minute-Long Consistent World Generation with Decoupled Memory 链接: https://arxiv.org/abs/2605.31336 一句话总结: 提出 DecMem——解耦记忆架构,通过稀疏全局记忆与锚定局部记忆的组合,实现分钟级别的高保真、高一致性可控视频生成,直接推进世界模型的长时序能力边界。 ...

2026年6月2日 · 10 分钟 · 4926 字 · elephantflow

ArXiv 每日精选 · 2026-05-31

📅 本期精选来自 2026-05-31 ArXiv 最新论文,聚焦视频生成、扩散模型、世界模型、具身AI等核心方向,共 8 篇。 📄 论文精选 VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion 链接: https://arxiv.org/abs/2605.30351 一句话总结: 将 Multi-Head Latent Attention(MLA)引入视频扩散模型,用低秩潜变量替换每个注意力头的 KV 缓存,显著降低流式视频生成的内存占用,同时维持甚至超越基线质量。 ...

2026年6月1日 · 10 分钟 · 4602 字 · elephantflow

ArXiv 每日精选 · 2026-05-30

📅 本期精选来自 2026-05-30 ArXiv 最新论文,聚焦视频扩散、流式生成、世界模型因果推理、4D运动生成、多模态数字人等核心方向,共 10 篇。 📄 论文精选 VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion 链接: https://arxiv.org/abs/2605.30351 ...

2026年5月31日 · 12 分钟 · 5603 字 · elephantflow

ArXiv 每日精选 · 2026-05-29

📅 本期精选来自 2026-05-29 ArXiv 最新论文,聚焦视频世界模型、扩散模型加速、具身智能、4D生成等核心方向,共 10 篇。 📄 论文精选 minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models 链接: https://arxiv.org/abs/2605.30263 一句话总结: 提出 minWM,一个端到端开源框架,将现有双向视频扩散基础模型转化为可实时交互的因果自回归世界模型,支持相机控制与低延迟推理。 ...

2026年5月30日 · 13 分钟 · 6067 字 · elephantflow

ArXiv 每日精选 · 2026-05-28

📅 本期精选来自 2026-05-28 ArXiv 最新论文,聚焦世界模型、视频生成、具身AI、扩散模型等核心方向,共 7 篇。 📄 论文精选 Generative Multi-Agent World Modeling Beyond Two Players 链接: https://arxiv.org/abs/2605.28816 一句话总结: NVIDIA 提出首个可扩展多智能体交互世界模型,支持任意数量玩家同时独立控制,实现 24 FPS 实时生成,agent 间一致性显著优于 baseline。 ...

2026年5月29日 · 10 分钟 · 4524 字 · elephantflow

ArXiv 每日精选 · 2026-05-27

📅 本期精选来自 2026-05-27 ArXiv 最新论文,聚焦扩散模型、视频生成、具身AI、3D 生成等核心方向,共 8 篇。 📄 论文精选 MRT: Masked Region Transformer for Layered Image Generation and Editing at Scale 链接: https://arxiv.org/abs/2605.27235 一句话总结: 提出 20B 参数的多层透明图像扩散模型 MRT,统一 text-to-layers、image-to-layers、layers-to-layers 三大任务,在速度和质量上大幅超越商业系统(CVPR 2026)。 ...

2026年5月28日 · 11 分钟 · 5153 字 · elephantflow

ArXiv 每日精选 · 2026-05-26

📅 本期精选来自 2026-05-26 ArXiv 最新论文,聚焦扩散模型、世界模型、视频生成、具身AI等核心方向,共 8 篇。 📄 论文精选 Reinforcing Few-step Generators via Reward-Tilted Distribution Matching 链接: https://arxiv.org/abs/2605.26108 一句话总结: 提出 RTDMD 框架,将分布匹配蒸馏与奖励引导强化学习统一,在 SD3/SD3.5/FLUX 上仅用 4 步推理实现新的 SOTA。 ...

2026年5月27日 · 10 分钟 · 4642 字 · elephantflow

ArXiv 每日精选 · 2026-05-25

📅 本期精选来自 2026-05-25 ArXiv 最新论文,聚焦扩散模型、视频生成、世界模型、具身AI等核心方向,共 8 篇。 📄 论文精选 LaMo: Self-Supervised Latent Motion Priors for Physical Realism in Video Generation 链接: https://arxiv.org/abs/2605.23878 一句话总结: 从未标注的训练视频中自监督提取运动先验,以即插即用方式显著提升视频扩散模型的物理真实性,无需任何外部监督。 ...

2026年5月26日 · 11 分钟 · 5348 字 · elephantflow

ArXiv 每日精选 · 2026-05-24

📅 本期精选来自 2026-05-24 ArXiv 最新论文,聚焦世界模型、扩散模型、VLA 机器人、具身AI 等核心方向,共 8 篇。 📄 论文精选 WorldKV: Efficient World Memory with World Retrieval and Compression 链接: https://arxiv.org/abs/2605.22718 一句话总结: 提出无需训练的世界模型持久记忆框架,通过选择性 KV-cache 检索与压缩,在维持世界一致性的同时实现约 2 倍推理吞吐提升。 ...

2026年5月25日 · 10 分钟 · 4626 字 · elephantflow