世界模型 | ElephantFlow's Blog

ArXiv 每日精选 · 2026-03-29

📅 本期精选来自 2026-03-29 ArXiv 最新论文，聚焦视频生成、世界模型、VLA具身智能、视频编辑等核心方向，共 8 篇。 📄 论文精选 ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling 链接： https://arxiv.org/abs/2603.25746 一句话总结：提出因果多镜头视频生成架构 ShotStream，通过分布匹配蒸馏实现流式交互式故事叙述，单GPU推理速度达 16 FPS。 ...

ArXiv 每日精选 · 2026-03-28

📅 本期精选来自 2026-03-28 ArXiv 最新论文，聚焦视频生成、世界模型、扩散模型、具身AI等核心方向，共 8 篇。 📄 论文精选 PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference 链接： https://arxiv.org/abs/2603.25730 一句话总结：通过三分区 KV-Cache 压缩策略和动态 top-k 上下文选取，仅用 5 秒短视频训练即可零样本外推到 2 分钟高质量视频生成，在单卡 H200 上实现 16FPS、KV Cache 仅 4GB。 ...

ArXiv 每日精选 · 2026-03-27

📅 本期精选来自 2026-03-27 ArXiv 最新论文，聚焦视频生成、世界模型、扩散模型、具身AI等核心方向，共 8 篇。 📄 论文精选 PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference 链接： https://arxiv.org/abs/2603.25730 一句话总结：提出 PackForcing 框架，通过三分区 KV-cache 压缩策略，仅用5秒短视频训练即可在单张 H200 上生成2分钟高质量长视频，实现 24 倍时间外推。 ...

ArXiv 每日精选 · 2026-03-26

📅 本期精选来自 2026-03-26 ArXiv 最新论文，聚焦扩散模型、世界模型、视频生成、具身AI等核心方向，共 9 篇。 📄 论文精选 Polynomial Speedup in Diffusion Models with the Multilevel Euler-Maruyama Method 链接： https://arxiv.org/abs/2603.24594 一句话总结：提出多层次 Euler-Maruyama（ML-EM）方法，在扩散模型采样中实现多项式级加速，将采样计算量压缩至等同于单次最大网络前向传播。 ...

ArXiv 每日精选 · 2026-03-25

📅 本期精选来自 2026-03-25 ArXiv 最新论文，聚焦世界模型、具身智能、扩散模型、视频生成等核心方向，共 8 篇。 📄 论文精选 ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment 链接： https://arxiv.org/abs/2603.23376 一句话总结：提出 ABot-PhysWorld，一个 14B 扩散 Transformer 世界模型，通过物理对齐训练生成物理可信、动作可控的机器人操作视频，解决当前视频世界模型中物体穿透、反重力等物理不合理问题。 ...

ArXiv 每日精选 · 2026-03-24

📅 本期精选来自 2026-03-24 ArXiv 最新论文（提交于 2026-03-23），聚焦世界模型、扩散模型、运动生成、具身AI与机器人等核心方向，共 8 篇。 📄 论文精选 UniMotion: A Unified Framework for Motion-Text-Vision Understanding and Generation 链接： https://arxiv.org/abs/2603.22282 ...

ArXiv 每日精选 · 2026-03-23

📅 本期精选来自 2026-03-23 ArXiv 最新论文，聚焦扩散模型、世界模型、视频生成、具身AI等核心方向，共 7 篇。 📄 论文精选 LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation 链接： https://arxiv.org/abs/2603.20192 一句话总结：提出 LumosX 框架，通过关系自注意力机制实现多身份属性精确对齐的个性化视频生成，在精细粒度身份一致性上达到 SOTA，被 ICLR 2026 收录。 ...

ArXiv 每日精选 · 2026-03-22

📅 本期精选来自 2026-03-22 ArXiv 最新论文，聚焦扩散模型、具身智能、动作生成、视频生成与编辑等核心方向，共 8 篇。 📄 论文精选 VEGA-3D: Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding 链接： https://arxiv.org/abs/2603.19235 一句话总结：将预训练视频扩散模型重新定位为"隐式空间编码器"，通过提取其中间层特征增强多模态大模型的几何感知与具身操控能力。 ...

ArXiv 每日精选 · 2026-03-21

📅 本期精选来自 2026-03-21 ArXiv 最新论文，聚焦扩散模型、具身智能（VLA）、3D 场景感知、视觉语言模型等核心方向，共 7 篇。 📄 论文精选 Not All Features Are Created Equal: A Mechanistic Study of Vision-Language-Action Models 链接： https://arxiv.org/abs/2603.19233 ...

ArXiv 每日精选 · 2026-03-19

📅 本期精选来自 2026-03-19 ArXiv 最新论文，聚焦视频世界模型、扩散模型、视频生成、具身AI等核心方向，共 8 篇。 📄 论文精选 Aligning Video World Models with Executable Robot Actions via Inverse Dynamics Rewards 链接： https://arxiv.org/abs/2603.17808 一句话总结：提出 EVA 框架，通过逆动力学模型作为奖励信号对视频世界模型进行强化学习后训练，弥合视觉生成与机器人可执行控制之间的"可执行性鸿沟"。 ...