ArXiv 每日精选 · 2026-04-23

📅 本期精选来自 2026-04-23 ArXiv 最新论文,聚焦世界模型、视频生成、具身AI、多模态等核心方向,共 8 篇。 📄 论文精选 Human-in-the-World-Model for Scalable Robot Post-Training 链接: https://arxiv.org/abs/2604.21741 一句话总结: 将世界模型作为可复用的"纠错底座",人类在模型内部做轨迹干预,替代真实机器人后训练中的物理执行环节。 ...

2026年4月24日 · 9 分钟 · 4236 字 · elephantflow

ArXiv 每日精选 · 2026-04-15

📅 本期精选来自 2026-04-15 ArXiv 最新论文,聚焦世界模型、生成模型、具身AI与机器人操作等核心方向,共 8 篇。 📄 论文精选 Lyra 2.0: Explorable Generative 3D Worlds 链接: https://arxiv.org/abs/2604.13036 一句话总结: 提出可大规模探索的持久性 3D 世界生成框架,通过解决"空间遗忘"与"时序漂移"两大核心退化问题,实现长轨迹、高一致性的 3D 场景生成。 ...

2026年4月16日 · 9 分钟 · 4239 字 · elephantflow

ArXiv 每日精选 · 2026-04-14

📅 本期精选来自 2026-04-14 ArXiv 最新论文,聚焦扩散模型、世界模型、视频生成、具身AI等核心方向,共 7 篇。 📄 论文精选 Grounded World Model for Semantically Generalizable Planning 链接: https://arxiv.org/abs/2604.11751 一句话总结: 提出 Grounded World Model(GWM),在视觉-语言对齐的隐空间中学习世界模型,将基于图像目标的 visuomotor MPC 转化为语言条件下的 VLA,大幅提升语义泛化能力。 ...

2026年4月15日 · 9 分钟 · 4164 字 · elephantflow

ArXiv 每日精选 · 2026-03-27

📅 本期精选来自 2026-03-27 ArXiv 最新论文,聚焦视频生成、世界模型、扩散模型、具身AI等核心方向,共 8 篇。 📄 论文精选 PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference 链接: https://arxiv.org/abs/2603.25730 一句话总结: 提出 PackForcing 框架,通过三分区 KV-cache 压缩策略,仅用5秒短视频训练即可在单张 H200 上生成2分钟高质量长视频,实现 24 倍时间外推。 ...

2026年3月28日 · 11 分钟 · 5326 字 · elephantflow

ArXiv 每日精选 · 2026-03-24

📅 本期精选来自 2026-03-24 ArXiv 最新论文(提交于 2026-03-23),聚焦世界模型、扩散模型、运动生成、具身AI与机器人等核心方向,共 8 篇。 📄 论文精选 UniMotion: A Unified Framework for Motion-Text-Vision Understanding and Generation 链接: https://arxiv.org/abs/2603.22282 ...

2026年3月25日 · 12 分钟 · 5681 字 · elephantflow

ArXiv 每日精选 · 2026-03-23

📅 本期精选来自 2026-03-23 ArXiv 最新论文,聚焦扩散模型、世界模型、视频生成、具身AI等核心方向,共 7 篇。 📄 论文精选 LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation 链接: https://arxiv.org/abs/2603.20192 一句话总结: 提出 LumosX 框架,通过关系自注意力机制实现多身份属性精确对齐的个性化视频生成,在精细粒度身份一致性上达到 SOTA,被 ICLR 2026 收录。 ...

2026年3月24日 · 11 分钟 · 5179 字 · elephantflow

ArXiv 每日精选 · 2026-03-19

📅 本期精选来自 2026-03-19 ArXiv 最新论文,聚焦视频世界模型、扩散模型、视频生成、具身AI等核心方向,共 8 篇。 📄 论文精选 Aligning Video World Models with Executable Robot Actions via Inverse Dynamics Rewards 链接: https://arxiv.org/abs/2603.17808 一句话总结: 提出 EVA 框架,通过逆动力学模型作为奖励信号对视频世界模型进行强化学习后训练,弥合视觉生成与机器人可执行控制之间的"可执行性鸿沟"。 ...

2026年3月20日 · 11 分钟 · 5137 字 · elephantflow

ArXiv 每日精选 · 2026-03-18

📅 本期精选来自 2026-03-18 ArXiv 最新论文,聚焦世界模型、视频生成、具身智能、机器人操作等核心方向,共 7 篇。 📄 论文精选 WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation 链接: https://arxiv.org/abs/2603.16871 一句话总结: 以相机位姿为统一几何表示,构建可交互的自回归3D游戏世界模型,同时解决动作精确控制与长时程3D一致性两大核心难题。 ...

2026年3月19日 · 11 分钟 · 5166 字 · elephantflow

ArXiv 每日精选 · 2026-03-15

📅 本期精选来自 2026-03-15 ArXiv 最新论文,聚焦具身智能、视频生成与理解、扩散模型可控性、流式空间感知等核心方向,共 8 篇。 📄 论文精选 Ψ₀ (Psi-Zero): An Open Foundation Model Towards Universal Humanoid Loco-Manipulation 链接: https://arxiv.org/abs/2603.12263 ...

2026年3月16日 · 11 分钟 · 5181 字 · elephantflow

ArXiv 每日精选 · 2026-03-13

📅 本期精选来自 2026-03-13 ArXiv 最新论文,聚焦扩散模型、具身智能、视频理解、机器人学习等核心方向,共 8 篇。 📄 论文精选 An Open Foundation Model Towards Universal Humanoid Loco-Manipulation 链接: https://arxiv.org/abs/2603.12263 一句话总结: 提出 $\Psi_0$ 开源基础模型,使用分阶段训练策略解决人形机器人运动操纵任务,通过解耦学习过程最大化异构数据源的利用效果。 ...

2026年3月14日 · 8 分钟 · 3905 字 · elephantflow