ArXiv 每日精选 · 2026-06-10

📅 本期精选来自 2026-06-10 ArXiv 最新论文,聚焦世界模型、扩散模型蒸馏、视频生成、具身 AI 等核心方向,共 10 篇。 📄 论文精选 Next Forcing: Causal World Modeling with Multi-Chunk Prediction 链接: https://arxiv.org/abs/2606.11187 一句话总结: 提出多块预测(MCP)训练目标,同时预测多个未来视频块,在加速自回归世界模型训练收敛的同时实现 2x 推理加速,在 RoboTwin 基准达到新 SOTA。 ...

2026年6月11日 · 12 分钟 · 5795 字 · elephantflow

ArXiv 每日精选 · 2026-06-09

📅 本期精选来自 2026-06-09 ArXiv 最新论文,聚焦世界模型、扩散模型、具身AI等核心方向,共 7 篇。 📄 论文精选 Latent Spatial Memory for Video World Models 链接: https://arxiv.org/abs/2606.09828 一句话总结: 提出 Mirage 框架,将视频世界模型的空间记忆直接存储在扩散模型的 latent 空间中,彻底消除 pixel-space 重建的信息损失,实现 SOTA 性能与 10x 生成加速。 ...

2026年6月10日 · 10 分钟 · 4796 字 · elephantflow

ArXiv 每日精选 · 2026-06-08

📅 本期精选来自 2026-06-08 ArXiv 最新论文,聚焦扩散模型、世界模型、视频生成、具身AI等核心方向,共 8 篇。 📄 论文精选 AsyncPatch Diffusion: spatially-flexible image generation 链接: https://arxiv.org/abs/2606.07079 一句话总结: 提出异步 Patch 扩散框架,打破标准扩散模型中所有空间区域必须共享同一噪声水平的约束,实现空间异质去噪轨迹,并给出首个合法的 ELBO 证明。 ...

2026年6月9日 · 10 分钟 · 4945 字 · elephantflow

ArXiv 每日精选 · 2026-06-07

📅 本期精选来自 2026-06-07 ArXiv 最新论文,聚焦扩散模型、世界模型、视频生成、具身AI等核心方向,共 8 篇。 📄 论文精选 Thinking with Imagination: Agentic Visual Spatial Reasoning with World Simulators 链接: https://arxiv.org/abs/2606.06476 一句话总结: 提出 Astra 框架,让 VLM 在推理时通过与世界模拟器交互主动获取"想象视觉证据",显著提升空间推理能力。 ...

2026年6月8日 · 10 分钟 · 4515 字 · elephantflow

ArXiv 每日精选 · 2026-06-06

📅 本期精选来自 2026-06-06 ArXiv 最新论文,聚焦扩散模型、世界模型、视频生成、具身AI等核心方向,共 7 篇。 📄 论文精选 Thinking with Imagination: Agentic Visual Spatial Reasoning with World Simulators 链接: https://arxiv.org/abs/2606.06476 一句话总结: 提出 Astra 框架,让 VLM 在推理过程中主动调用世界模拟器生成想象视觉证据,实现真正的具身空间推理。 ...

2026年6月7日 · 10 分钟 · 4924 字 · elephantflow

ArXiv 每日精选 · 2026-06-05

📅 本期精选来自 2026-06-05 ArXiv 最新论文,聚焦世界模型、具身AI、视频生成、扩散模型等核心方向,共 8 篇。 📄 论文精选 World-Language-Action Model for Unified World Modeling, Language Reasoning, and Action Synthesis 链接: https://arxiv.org/abs/2606.05979 一句话总结: 提出 WLA(World-Language-Action)模型,将世界建模(视频预测)、语言推理与机器人动作生成整合到单一自回归 Transformer 框架中,2B 参数原型 WLA-0 在 RoboTwin2.0 上达到 92.94% 成功率。 ...

2026年6月6日 · 11 分钟 · 5429 字 · elephantflow

ArXiv 每日精选 · 2026-06-04

📅 本期精选来自 2026-06-04 ArXiv 最新论文,聚焦具身智能、世界模型、Flow Matching、VLA、3D生成与扩散模型等核心方向,共 7 篇。 📄 论文精选 GRAIL: Generating Humanoid Loco-Manipulation from 3D Assets and Video Priors 链接: https://arxiv.org/abs/2606.05160 ...

2026年6月5日 · 11 分钟 · 5073 字 · elephantflow

ArXiv 每日精选 · 2026-06-03

📅 本期精选来自 2026-06-03 ArXiv 最新论文,聚焦视频生成、具身智能、机器人+生成模型、多模态理解等核心方向,共 8 篇。 📄 论文精选 Humanoid-GPT: Scaling Data and Structure for Zero-Shot Motion Tracking 链接: https://arxiv.org/abs/2606.03985 一句话总结: 在 20 亿帧动捕数据上预训练 GPT 风格 Transformer,实现人形机器人全身运动追踪的零样本泛化,刷新性能上限。 ...

2026年6月4日 · 10 分钟 · 4941 字 · elephantflow

ArXiv 每日精选 · 2026-06-02

📅 本期精选来自 2026-06-02 ArXiv 最新论文,聚焦世界模型、视频生成、具身智能、机器人操作等核心方向,共 9 篇。 📄 论文精选 From Zero to Hero: Training-Free Custom Concept Spawning in World Models 链接: https://arxiv.org/abs/2606.02575 一句话总结: 提出 SPAWN,一种免训练的方法,可将用户指定的视觉概念(角色、道具、建筑等)无缝注入自回归世界模型,无需任何微调。 ...

2026年6月3日 · 12 分钟 · 5768 字 · elephantflow

ArXiv 每日精选 · 2026-06-01

📅 本期精选来自 2026-06-01 ArXiv 最新论文,聚焦扩散模型、世界模型、视频生成、具身AI等核心方向,共 8 篇。 📄 论文精选 Towards Minute-Long Consistent World Generation with Decoupled Memory 链接: https://arxiv.org/abs/2605.31336 一句话总结: 提出 DecMem——解耦记忆架构,通过稀疏全局记忆与锚定局部记忆的组合,实现分钟级别的高保真、高一致性可控视频生成,直接推进世界模型的长时序能力边界。 ...

2026年6月2日 · 10 分钟 · 4926 字 · elephantflow