ArXiv 每日精选 · 2026-06-02

📅 本期精选来自 2026-06-02 ArXiv 最新论文,聚焦世界模型、视频生成、具身智能、机器人操作等核心方向,共 9 篇。 📄 论文精选 From Zero to Hero: Training-Free Custom Concept Spawning in World Models 链接: https://arxiv.org/abs/2606.02575 一句话总结: 提出 SPAWN,一种免训练的方法,可将用户指定的视觉概念(角色、道具、建筑等)无缝注入自回归世界模型,无需任何微调。 ...

2026年6月3日 · 12 分钟 · 5768 字 · elephantflow

ArXiv 每日精选 · 2026-05-31

📅 本期精选来自 2026-05-31 ArXiv 最新论文,聚焦视频生成、扩散模型、世界模型、具身AI等核心方向,共 8 篇。 📄 论文精选 VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion 链接: https://arxiv.org/abs/2605.30351 一句话总结: 将 Multi-Head Latent Attention(MLA)引入视频扩散模型,用低秩潜变量替换每个注意力头的 KV 缓存,显著降低流式视频生成的内存占用,同时维持甚至超越基线质量。 ...

2026年6月1日 · 10 分钟 · 4602 字 · elephantflow

ArXiv 每日精选 · 2026-05-29

📅 本期精选来自 2026-05-29 ArXiv 最新论文,聚焦视频世界模型、扩散模型加速、具身智能、4D生成等核心方向,共 10 篇。 📄 论文精选 minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models 链接: https://arxiv.org/abs/2605.30263 一句话总结: 提出 minWM,一个端到端开源框架,将现有双向视频扩散基础模型转化为可实时交互的因果自回归世界模型,支持相机控制与低延迟推理。 ...

2026年5月30日 · 13 分钟 · 6067 字 · elephantflow

ArXiv 每日精选 · 2026-05-28

📅 本期精选来自 2026-05-28 ArXiv 最新论文,聚焦世界模型、视频生成、具身AI、扩散模型等核心方向,共 7 篇。 📄 论文精选 Generative Multi-Agent World Modeling Beyond Two Players 链接: https://arxiv.org/abs/2605.28816 一句话总结: NVIDIA 提出首个可扩展多智能体交互世界模型,支持任意数量玩家同时独立控制,实现 24 FPS 实时生成,agent 间一致性显著优于 baseline。 ...

2026年5月29日 · 10 分钟 · 4524 字 · elephantflow

ArXiv 每日精选 · 2026-05-26

📅 本期精选来自 2026-05-26 ArXiv 最新论文,聚焦扩散模型、世界模型、视频生成、具身AI等核心方向,共 8 篇。 📄 论文精选 Reinforcing Few-step Generators via Reward-Tilted Distribution Matching 链接: https://arxiv.org/abs/2605.26108 一句话总结: 提出 RTDMD 框架,将分布匹配蒸馏与奖励引导强化学习统一,在 SD3/SD3.5/FLUX 上仅用 4 步推理实现新的 SOTA。 ...

2026年5月27日 · 10 分钟 · 4642 字 · elephantflow

ArXiv 每日精选 · 2026-05-25

📅 本期精选来自 2026-05-25 ArXiv 最新论文,聚焦扩散模型、视频生成、世界模型、具身AI等核心方向,共 8 篇。 📄 论文精选 LaMo: Self-Supervised Latent Motion Priors for Physical Realism in Video Generation 链接: https://arxiv.org/abs/2605.23878 一句话总结: 从未标注的训练视频中自监督提取运动先验,以即插即用方式显著提升视频扩散模型的物理真实性,无需任何外部监督。 ...

2026年5月26日 · 11 分钟 · 5348 字 · elephantflow

ArXiv 每日精选 · 2026-05-23

📅 本期精选来自 2026-05-23 ArXiv 最新论文,聚焦世界模型、扩散模型、具身AI与机器人等核心方向,共 8 篇。 📄 论文精选 WorldKV: Efficient World Memory with World Retrieval and Compression 链接: https://arxiv.org/abs/2605.22718 一句话总结: 提出无需训练的 WorldKV 框架,通过 KV-cache 检索与压缩实现持久一致的世界模型记忆,解决自回归视频扩散模型中长时序一致性与实时性的核心矛盾。 ...

2026年5月24日 · 11 分钟 · 5035 字 · elephantflow

ArXiv 每日精选 · 2026-05-22

📅 本期精选来自 2026-05-22 ArXiv 最新论文,聚焦世界模型、具身 AI / VLA、动作生成、扩散模型等核心方向,共 10 篇。 📄 论文精选 WorldKV: Efficient World Memory with World Retrieval and Compression 链接: https://arxiv.org/abs/2605.22718 一句话总结: 提出 WorldKV 框架,通过检索与压缩机制解决自回归视频扩散世界模型的长程场景一致性问题,在不微调的情况下实现近似 full-KV 的记忆保真度与约 2× 的吞吐量提升。 ...

2026年5月23日 · 12 分钟 · 5885 字 · elephantflow

ArXiv 每日精选 · 2026-04-23

📅 本期精选来自 2026-04-23 ArXiv 最新论文,聚焦世界模型、视频生成、具身AI、多模态等核心方向,共 8 篇。 📄 论文精选 Human-in-the-World-Model for Scalable Robot Post-Training 链接: https://arxiv.org/abs/2604.21741 一句话总结: 将世界模型作为可复用的"纠错底座",人类在模型内部做轨迹干预,替代真实机器人后训练中的物理执行环节。 ...

2026年4月24日 · 9 分钟 · 4236 字 · elephantflow

ArXiv 每日精选 · 2026-04-15

📅 本期精选来自 2026-04-15 ArXiv 最新论文,聚焦世界模型、生成模型、具身AI与机器人操作等核心方向,共 8 篇。 📄 论文精选 Lyra 2.0: Explorable Generative 3D Worlds 链接: https://arxiv.org/abs/2604.13036 一句话总结: 提出可大规模探索的持久性 3D 世界生成框架,通过解决"空间遗忘"与"时序漂移"两大核心退化问题,实现长轨迹、高一致性的 3D 场景生成。 ...

2026年4月16日 · 9 分钟 · 4239 字 · elephantflow