ArXiv 每日精选 · 2026-06-12

📅 本期精选来自 2026-06-12 ArXiv 最新论文,聚焦世界模型、扩散模型、视频生成、具身AI等核心方向,共 8 篇。 📄 论文精选 WEAVER, Better, Faster, Longer: An Effective World Model for Robotic Manipulation 链接: https://arxiv.org/abs/2606.13672 一句话总结: 提出 WEAVER 世界模型架构,同时满足高保真度、长时序一致性与推理效率三大需求,在真实机器人操作任务上取得 SOTA 表现。 ...

2026年6月13日 · 10 分钟 · 4571 字 · elephantflow

ArXiv 每日精选 · 2026-06-11

📅 本期精选来自 2026-06-11 ArXiv 最新论文,聚焦世界模型、扩散策略、具身AI、视频生成等核心方向,共 7 篇。 📄 论文精选 World Pilot: Steering Vision-Language-Action Models with World-Action Priors 链接: https://arxiv.org/abs/2606.12403 一句话总结: 通过世界动作模型(WAM)生成的"预见"先验,从感知与动作两条路径同时增强 VLA,实现更强的跨域泛化能力。 ...

2026年6月12日 · 10 分钟 · 4575 字 · elephantflow

ArXiv 每日精选 · 2026-06-10

📅 本期精选来自 2026-06-10 ArXiv 最新论文,聚焦世界模型、扩散模型蒸馏、视频生成、具身 AI 等核心方向,共 10 篇。 📄 论文精选 Next Forcing: Causal World Modeling with Multi-Chunk Prediction 链接: https://arxiv.org/abs/2606.11187 一句话总结: 提出多块预测(MCP)训练目标,同时预测多个未来视频块,在加速自回归世界模型训练收敛的同时实现 2x 推理加速,在 RoboTwin 基准达到新 SOTA。 ...

2026年6月11日 · 12 分钟 · 5795 字 · elephantflow

ArXiv 每日精选 · 2026-06-09

📅 本期精选来自 2026-06-09 ArXiv 最新论文,聚焦世界模型、扩散模型、具身AI等核心方向,共 7 篇。 📄 论文精选 Latent Spatial Memory for Video World Models 链接: https://arxiv.org/abs/2606.09828 一句话总结: 提出 Mirage 框架,将视频世界模型的空间记忆直接存储在扩散模型的 latent 空间中,彻底消除 pixel-space 重建的信息损失,实现 SOTA 性能与 10x 生成加速。 ...

2026年6月10日 · 10 分钟 · 4796 字 · elephantflow

ArXiv 每日精选 · 2026-06-08

📅 本期精选来自 2026-06-08 ArXiv 最新论文,聚焦扩散模型、世界模型、视频生成、具身AI等核心方向,共 8 篇。 📄 论文精选 AsyncPatch Diffusion: spatially-flexible image generation 链接: https://arxiv.org/abs/2606.07079 一句话总结: 提出异步 Patch 扩散框架,打破标准扩散模型中所有空间区域必须共享同一噪声水平的约束,实现空间异质去噪轨迹,并给出首个合法的 ELBO 证明。 ...

2026年6月9日 · 10 分钟 · 4945 字 · elephantflow

ArXiv 每日精选 · 2026-06-07

📅 本期精选来自 2026-06-07 ArXiv 最新论文,聚焦扩散模型、世界模型、视频生成、具身AI等核心方向,共 8 篇。 📄 论文精选 Thinking with Imagination: Agentic Visual Spatial Reasoning with World Simulators 链接: https://arxiv.org/abs/2606.06476 一句话总结: 提出 Astra 框架,让 VLM 在推理时通过与世界模拟器交互主动获取"想象视觉证据",显著提升空间推理能力。 ...

2026年6月8日 · 10 分钟 · 4515 字 · elephantflow

ArXiv 每日精选 · 2026-06-06

📅 本期精选来自 2026-06-06 ArXiv 最新论文,聚焦扩散模型、世界模型、视频生成、具身AI等核心方向,共 7 篇。 📄 论文精选 Thinking with Imagination: Agentic Visual Spatial Reasoning with World Simulators 链接: https://arxiv.org/abs/2606.06476 一句话总结: 提出 Astra 框架,让 VLM 在推理过程中主动调用世界模拟器生成想象视觉证据,实现真正的具身空间推理。 ...

2026年6月7日 · 10 分钟 · 4924 字 · elephantflow

ArXiv 每日精选 · 2026-06-05

📅 本期精选来自 2026-06-05 ArXiv 最新论文,聚焦世界模型、具身AI、视频生成、扩散模型等核心方向,共 8 篇。 📄 论文精选 World-Language-Action Model for Unified World Modeling, Language Reasoning, and Action Synthesis 链接: https://arxiv.org/abs/2606.05979 一句话总结: 提出 WLA(World-Language-Action)模型,将世界建模(视频预测)、语言推理与机器人动作生成整合到单一自回归 Transformer 框架中,2B 参数原型 WLA-0 在 RoboTwin2.0 上达到 92.94% 成功率。 ...

2026年6月6日 · 11 分钟 · 5429 字 · elephantflow

ArXiv 每日精选 · 2026-06-04

📅 本期精选来自 2026-06-04 ArXiv 最新论文,聚焦具身智能、世界模型、Flow Matching、VLA、3D生成与扩散模型等核心方向,共 7 篇。 📄 论文精选 GRAIL: Generating Humanoid Loco-Manipulation from 3D Assets and Video Priors 链接: https://arxiv.org/abs/2606.05160 ...

2026年6月5日 · 11 分钟 · 5073 字 · elephantflow

ArXiv 每日精选 · 2026-06-03

📅 本期精选来自 2026-06-03 ArXiv 最新论文,聚焦视频生成、具身智能、机器人+生成模型、多模态理解等核心方向,共 8 篇。 📄 论文精选 Humanoid-GPT: Scaling Data and Structure for Zero-Shot Motion Tracking 链接: https://arxiv.org/abs/2606.03985 一句话总结: 在 20 亿帧动捕数据上预训练 GPT 风格 Transformer,实现人形机器人全身运动追踪的零样本泛化,刷新性能上限。 ...

2026年6月4日 · 10 分钟 · 4941 字 · elephantflow