具身智能 | ElephantFlow's Blog

ArXiv 每日精选 · 2026-03-31

📅 本期精选来自 2026-03-31 ArXiv 最新论文，聚焦扩散模型多样性、双手动作生成、机器人强化学习奖励、端侧生成模型等核心方向，共 7 篇。 📄 论文精选 HandX: Scaling Bimanual Motion and Interaction Generation 链接： https://arxiv.org/abs/2603.28766 ...

ArXiv 每日精选 · 2026-03-29

📅 本期精选来自 2026-03-29 ArXiv 最新论文，聚焦视频生成、世界模型、VLA具身智能、视频编辑等核心方向，共 8 篇。 📄 论文精选 ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling 链接： https://arxiv.org/abs/2603.25746 一句话总结：提出因果多镜头视频生成架构 ShotStream，通过分布匹配蒸馏实现流式交互式故事叙述，单GPU推理速度达 16 FPS。 ...

ArXiv 每日精选 · 2026-03-27

📅 本期精选来自 2026-03-27 ArXiv 最新论文，聚焦视频生成、世界模型、扩散模型、具身AI等核心方向，共 8 篇。 📄 论文精选 PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference 链接： https://arxiv.org/abs/2603.25730 一句话总结：提出 PackForcing 框架，通过三分区 KV-cache 压缩策略，仅用5秒短视频训练即可在单张 H200 上生成2分钟高质量长视频，实现 24 倍时间外推。 ...

ArXiv 每日精选 · 2026-03-26

📅 本期精选来自 2026-03-26 ArXiv 最新论文，聚焦扩散模型、世界模型、视频生成、具身AI等核心方向，共 9 篇。 📄 论文精选 Polynomial Speedup in Diffusion Models with the Multilevel Euler-Maruyama Method 链接： https://arxiv.org/abs/2603.24594 一句话总结：提出多层次 Euler-Maruyama（ML-EM）方法，在扩散模型采样中实现多项式级加速，将采样计算量压缩至等同于单次最大网络前向传播。 ...

ArXiv 每日精选 · 2026-03-25

📅 本期精选来自 2026-03-25 ArXiv 最新论文，聚焦世界模型、具身智能、扩散模型、视频生成等核心方向，共 8 篇。 📄 论文精选 ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment 链接： https://arxiv.org/abs/2603.23376 一句话总结：提出 ABot-PhysWorld，一个 14B 扩散 Transformer 世界模型，通过物理对齐训练生成物理可信、动作可控的机器人操作视频，解决当前视频世界模型中物体穿透、反重力等物理不合理问题。 ...

ArXiv 每日精选 · 2026-03-24

📅 本期精选来自 2026-03-24 ArXiv 最新论文（提交于 2026-03-23），聚焦世界模型、扩散模型、运动生成、具身AI与机器人等核心方向，共 8 篇。 📄 论文精选 UniMotion: A Unified Framework for Motion-Text-Vision Understanding and Generation 链接： https://arxiv.org/abs/2603.22282 ...

ArXiv 每日精选 · 2026-03-23

📅 本期精选来自 2026-03-23 ArXiv 最新论文，聚焦扩散模型、世界模型、视频生成、具身AI等核心方向，共 7 篇。 📄 论文精选 LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation 链接： https://arxiv.org/abs/2603.20192 一句话总结：提出 LumosX 框架，通过关系自注意力机制实现多身份属性精确对齐的个性化视频生成，在精细粒度身份一致性上达到 SOTA，被 ICLR 2026 收录。 ...

ArXiv 每日精选 · 2026-03-22

📅 本期精选来自 2026-03-22 ArXiv 最新论文，聚焦扩散模型、具身智能、动作生成、视频生成与编辑等核心方向，共 8 篇。 📄 论文精选 VEGA-3D: Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding 链接： https://arxiv.org/abs/2603.19235 一句话总结：将预训练视频扩散模型重新定位为"隐式空间编码器"，通过提取其中间层特征增强多模态大模型的几何感知与具身操控能力。 ...

ArXiv 每日精选 · 2026-03-21

📅 本期精选来自 2026-03-21 ArXiv 最新论文，聚焦扩散模型、具身智能（VLA）、3D 场景感知、视觉语言模型等核心方向，共 7 篇。 📄 论文精选 Not All Features Are Created Equal: A Mechanistic Study of Vision-Language-Action Models 链接： https://arxiv.org/abs/2603.19233 ...

ArXiv 每日精选 · 2026-03-20

📅 本期精选来自 2026-03-20 ArXiv 最新论文，聚焦离散生成模型、运动生成、视频编辑、具身 AI 与 VLA 可解释性等核心方向，共 8 篇。 📄 论文精选 CubiD: Discrete Visual Generation on High-Dimensional Representation Tokens 链接： https://arxiv.org/abs/2603.19232 一句话总结：首个在高维（768–1024 维）预训练表示上实现离散生成的模型，打破了离散生成只能用低维 token（8–32 维）的瓶颈，同时让同一套 token 兼顾理解与生成任务。 ...