ArXiv

ArXiv 每日精选 · 2026-06-12

📅 本期精选来自 2026-06-12 ArXiv 最新论文，聚焦世界模型、扩散模型、视频生成、具身AI等核心方向，共 8 篇。 📄 论文精选 WEAVER, Better, Faster, Longer: An Effective World Model for Robotic Manipulation 链接： https://arxiv.org/abs/2606.13672 一句话总结：提出 WEAVER 世界模型架构，同时满足高保真度、长时序一致性与推理效率三大需求，在真实机器人操作任务上取得 SOTA 表现。 ...

ArXiv 每日精选 · 2026-06-11

📅 本期精选来自 2026-06-11 ArXiv 最新论文，聚焦世界模型、扩散策略、具身AI、视频生成等核心方向，共 7 篇。 📄 论文精选 World Pilot: Steering Vision-Language-Action Models with World-Action Priors 链接： https://arxiv.org/abs/2606.12403 一句话总结：通过世界动作模型（WAM）生成的"预见"先验，从感知与动作两条路径同时增强 VLA，实现更强的跨域泛化能力。 ...

ArXiv 每日精选 · 2026-06-10

📅 本期精选来自 2026-06-10 ArXiv 最新论文，聚焦世界模型、扩散模型蒸馏、视频生成、具身 AI 等核心方向，共 10 篇。 📄 论文精选 Next Forcing: Causal World Modeling with Multi-Chunk Prediction 链接： https://arxiv.org/abs/2606.11187 一句话总结：提出多块预测（MCP）训练目标，同时预测多个未来视频块，在加速自回归世界模型训练收敛的同时实现 2x 推理加速，在 RoboTwin 基准达到新 SOTA。 ...

ArXiv 每日精选 · 2026-06-09

📅 本期精选来自 2026-06-09 ArXiv 最新论文，聚焦世界模型、扩散模型、具身AI等核心方向，共 7 篇。 📄 论文精选 Latent Spatial Memory for Video World Models 链接： https://arxiv.org/abs/2606.09828 一句话总结：提出 Mirage 框架，将视频世界模型的空间记忆直接存储在扩散模型的 latent 空间中，彻底消除 pixel-space 重建的信息损失，实现 SOTA 性能与 10x 生成加速。 ...

ArXiv 每日精选 · 2026-06-08

📅 本期精选来自 2026-06-08 ArXiv 最新论文，聚焦扩散模型、世界模型、视频生成、具身AI等核心方向，共 8 篇。 📄 论文精选 AsyncPatch Diffusion: spatially-flexible image generation 链接： https://arxiv.org/abs/2606.07079 一句话总结：提出异步 Patch 扩散框架，打破标准扩散模型中所有空间区域必须共享同一噪声水平的约束，实现空间异质去噪轨迹，并给出首个合法的 ELBO 证明。 ...

ArXiv 每日精选 · 2026-06-07

📅 本期精选来自 2026-06-07 ArXiv 最新论文，聚焦扩散模型、世界模型、视频生成、具身AI等核心方向，共 8 篇。 📄 论文精选 Thinking with Imagination: Agentic Visual Spatial Reasoning with World Simulators 链接： https://arxiv.org/abs/2606.06476 一句话总结：提出 Astra 框架，让 VLM 在推理时通过与世界模拟器交互主动获取"想象视觉证据"，显著提升空间推理能力。 ...

ArXiv 每日精选 · 2026-06-06

📅 本期精选来自 2026-06-06 ArXiv 最新论文，聚焦扩散模型、世界模型、视频生成、具身AI等核心方向，共 7 篇。 📄 论文精选 Thinking with Imagination: Agentic Visual Spatial Reasoning with World Simulators 链接： https://arxiv.org/abs/2606.06476 一句话总结：提出 Astra 框架，让 VLM 在推理过程中主动调用世界模拟器生成想象视觉证据，实现真正的具身空间推理。 ...

ArXiv 每日精选 · 2026-06-05

📅 本期精选来自 2026-06-05 ArXiv 最新论文，聚焦世界模型、具身AI、视频生成、扩散模型等核心方向，共 8 篇。 📄 论文精选 World-Language-Action Model for Unified World Modeling, Language Reasoning, and Action Synthesis 链接： https://arxiv.org/abs/2606.05979 一句话总结：提出 WLA（World-Language-Action）模型，将世界建模（视频预测）、语言推理与机器人动作生成整合到单一自回归 Transformer 框架中，2B 参数原型 WLA-0 在 RoboTwin2.0 上达到 92.94% 成功率。 ...

ArXiv 每日精选 · 2026-06-04

📅 本期精选来自 2026-06-04 ArXiv 最新论文，聚焦具身智能、世界模型、Flow Matching、VLA、3D生成与扩散模型等核心方向，共 7 篇。 📄 论文精选 GRAIL: Generating Humanoid Loco-Manipulation from 3D Assets and Video Priors 链接： https://arxiv.org/abs/2606.05160 ...

ArXiv 每日精选 · 2026-06-03

📅 本期精选来自 2026-06-03 ArXiv 最新论文，聚焦视频生成、具身智能、机器人+生成模型、多模态理解等核心方向，共 8 篇。 📄 论文精选 Humanoid-GPT: Scaling Data and Structure for Zero-Shot Motion Tracking 链接： https://arxiv.org/abs/2606.03985 一句话总结：在 20 亿帧动捕数据上预训练 GPT 风格 Transformer，实现人形机器人全身运动追踪的零样本泛化，刷新性能上限。 ...