ElephantFlow's Blog

ArXiv 每日精选 · 2026-07-02

📅 本期精选来自 2026-07-02 ArXiv 最新论文，聚焦世界模型、3D生成、扩散模型、具身AI与机器人学习等核心方向，共 8 篇。 📄 论文精选 World from Motion: Generative Dynamic Gaussian Reconstruction from Monocular Video 链接： https://arxiv.org/abs/2607.01202 一句话总结： NVIDIA 提出 World from Motion，用视频生成模型从单目视频生成可自由渲染的高质量动态 3D Gaussian 场景，实现 4D 重建 SOTA。 ...

ArXiv 每日精选 · 2026-07-01

📅 本期精选来自 2026-07-01 ArXiv 最新论文，聚焦世界模型、视频生成、具身智能、机器人学习、生成模型等核心方向，共 8 篇。 📄 论文精选 DVG-WM: Disentangled Video Generation Enables Efficient Embodied World Model for Robotic Manipulation 链接： https://arxiv.org/abs/2606.32028 ...

ArXiv 每日精选 · 2026-06-30

📅 本期精选来自 2026-06-30 ArXiv 最新论文，聚焦世界模型、视频生成、具身AI与机器人、生成模型理论等核心方向，共 8 篇。 📄 论文精选 Orca: The World is in Your Mind 链接： https://arxiv.org/abs/2606.30534 一句话总结：提出通用世界基础模型 Orca，通过统一的 Next-State-Prediction 建模范式，在共享的世界潜空间中同时支持文本生成、图像预测和具身动作生成三类下游任务。 ...

ArXiv 每日精选 · 2026-06-29

📅 本期精选来自 2026-06-29 ArXiv 最新论文，聚焦扩散模型、世界模型、视频生成、具身AI等核心方向，共 7 篇。 📄 论文精选 TempAct: Advancing Temporal Plausibility in Autoregressive Video Generation via Planner-Executor RL 链接： https://arxiv.org/abs/2606.28016 一句话总结：提出 Planner-Executor 强化学习框架，解决自回归视频扩散模型中 chunk-wise 生成的时序指令跟随问题，显著提升长视频的时间一致性。 ...

ArXiv 每日精选 · 2026-06-28

📅 本期精选来自 2026-06-28 ArXiv 最新论文，聚焦世界模型、扩散模型、视频生成、具身AI等核心方向，共 8 篇。 📄 论文精选 Hallucination in World Models is Predictable and Preventable 链接： https://arxiv.org/abs/2606.27326 一句话总结：系统性分析了生成式世界模型中幻觉（hallucination）的成因，提出可预测、可预防的数据覆盖驱动框架，并构建了大规模 MMBench2 基准。 ...

ArXiv 每日精选 · 2026-06-27

📅 本期精选来自 2026-06-27 ArXiv 最新论文，聚焦扩散模型、世界模型、视频生成、具身AI等核心方向，共 10 篇。 📄 论文精选 DanceOPD: On-Policy Generative Field Distillation 链接： https://arxiv.org/abs/2606.27377 一句话总结：提出基于 on-policy 策略的生成场蒸馏框架，在 flow-matching 模型中统一 T2I、局部编辑与全局编辑等多种能力，通过将每个样本路由到单一能力场并以速度 MSE 目标训练，实现多能力组合而不牺牲基础生成质量。 ...

ArXiv 每日精选 · 2026-06-26

📅 本期精选来自 2026-06-26 ArXiv 最新论文，聚焦扩散模型、世界模型、视频生成、具身AI等核心方向，共 7 篇。 📄 论文精选 World Action Models Enable Continual Imitation Learning with Recurrent Generative Replays 链接： https://arxiv.org/abs/2606.27374 一句话总结：利用世界动作模型（WAM）的视频生成能力合成伪回放轨迹，实现无需存储历史演示数据的持续机器人模仿学习。 ...

ArXiv 每日精选 · 2026-06-25

📅 本期精选来自 2026-06-25 ArXiv 最新论文，聚焦扩散模型、视频生成、VLA具身智能、自动驾驶等核心方向，共 8 篇。 📄 论文精选 Learning Action Priors for Cross-embodiment Robot Manipulation 链接： https://arxiv.org/abs/2606.26095 一句话总结：提出两阶段训练框架，在 VLA 训练前用流匹配预训练动作模块，赋予其跨具身时序运动先验，显著提升多任务操作成功率。 ...

ArXiv 每日精选 · 2026-06-24

📅 本期精选来自 2026-06-24 ArXiv 最新论文，聚焦扩散模型、3D生成、视觉生成模型、具身AI与VLA等核心方向，共 8 篇。 📄 论文精选 DiffusionBench: On Holistic Evaluation of Diffusion Transformers 链接： https://arxiv.org/abs/2606.24888 一句话总结：提出 NanoGen 统一训练框架和 DiffusionBench 评测基准，揭示 ImageNet 类别条件生成与 T2I 生成指标之间存在显著负相关，推动扩散模型走向更全面的评测范式。 ...

ArXiv 每日精选 · 2026-06-23

📅 本期精选来自 2026-06-23 ArXiv 最新论文，聚焦扩散模型、视频生成、动作生成、具身AI等核心方向，共 7 篇。 📄 论文精选 LaST-HD: Learning Latent Physical Reasoning from Scalable Human Data for Robot Manipulation 链接： https://arxiv.org/abs/2606.23685 一句话总结：提出了一种基于世界模型的人-机器人动作对齐框架，通过在共享隐空间中建立前向动力学一致性，使机器人能够从人类手部演示数据中高效学习物理操作技能。 ...