VLA | ElephantFlow's Blog

ArXiv 每日精选 · 2026-06-25

📅 本期精选来自 2026-06-25 ArXiv 最新论文，聚焦扩散模型、视频生成、VLA具身智能、自动驾驶等核心方向，共 8 篇。 📄 论文精选 Learning Action Priors for Cross-embodiment Robot Manipulation 链接： https://arxiv.org/abs/2606.26095 一句话总结：提出两阶段训练框架，在 VLA 训练前用流匹配预训练动作模块，赋予其跨具身时序运动先验，显著提升多任务操作成功率。 ...

ArXiv 每日精选 · 2026-06-24

📅 本期精选来自 2026-06-24 ArXiv 最新论文，聚焦扩散模型、3D生成、视觉生成模型、具身AI与VLA等核心方向，共 8 篇。 📄 论文精选 DiffusionBench: On Holistic Evaluation of Diffusion Transformers 链接： https://arxiv.org/abs/2606.24888 一句话总结：提出 NanoGen 统一训练框架和 DiffusionBench 评测基准，揭示 ImageNet 类别条件生成与 T2I 生成指标之间存在显著负相关，推动扩散模型走向更全面的评测范式。 ...

ArXiv 每日精选 · 2026-06-11

📅 本期精选来自 2026-06-11 ArXiv 最新论文，聚焦世界模型、扩散策略、具身AI、视频生成等核心方向，共 7 篇。 📄 论文精选 World Pilot: Steering Vision-Language-Action Models with World-Action Priors 链接： https://arxiv.org/abs/2606.12403 一句话总结：通过世界动作模型（WAM）生成的"预见"先验，从感知与动作两条路径同时增强 VLA，实现更强的跨域泛化能力。 ...

ArXiv 每日精选 · 2026-06-04

📅 本期精选来自 2026-06-04 ArXiv 最新论文，聚焦具身智能、世界模型、Flow Matching、VLA、3D生成与扩散模型等核心方向，共 7 篇。 📄 论文精选 GRAIL: Generating Humanoid Loco-Manipulation from 3D Assets and Video Priors 链接： https://arxiv.org/abs/2606.05160 ...

ArXiv 每日精选 · 2026-05-22

📅 本期精选来自 2026-05-22 ArXiv 最新论文，聚焦世界模型、具身 AI / VLA、动作生成、扩散模型等核心方向，共 10 篇。 📄 论文精选 WorldKV: Efficient World Memory with World Retrieval and Compression 链接： https://arxiv.org/abs/2605.22718 一句话总结：提出 WorldKV 框架，通过检索与压缩机制解决自回归视频扩散世界模型的长程场景一致性问题，在不微调的情况下实现近似 full-KV 的记忆保真度与约 2× 的吞吐量提升。 ...

ArXiv 每日精选 · 2026-03-29

📅 本期精选来自 2026-03-29 ArXiv 最新论文，聚焦视频生成、世界模型、VLA具身智能、视频编辑等核心方向，共 8 篇。 📄 论文精选 ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling 链接： https://arxiv.org/abs/2603.25746 一句话总结：提出因果多镜头视频生成架构 ShotStream，通过分布匹配蒸馏实现流式交互式故事叙述，单GPU推理速度达 16 FPS。 ...

ArXiv 每日精选 · 2026-03-21

📅 本期精选来自 2026-03-21 ArXiv 最新论文，聚焦扩散模型、具身智能（VLA）、3D 场景感知、视觉语言模型等核心方向，共 7 篇。 📄 论文精选 Not All Features Are Created Equal: A Mechanistic Study of Vision-Language-Action Models 链接： https://arxiv.org/abs/2603.19233 ...

ArXiv 每日精选 · 2026-03-20

📅 本期精选来自 2026-03-20 ArXiv 最新论文，聚焦离散生成模型、运动生成、视频编辑、具身 AI 与 VLA 可解释性等核心方向，共 8 篇。 📄 论文精选 CubiD: Discrete Visual Generation on High-Dimensional Representation Tokens 链接： https://arxiv.org/abs/2603.19232 一句话总结：首个在高维（768–1024 维）预训练表示上实现离散生成的模型，打破了离散生成只能用低维 token（8–32 维）的瓶颈，同时让同一套 token 兼顾理解与生成任务。 ...

ArXiv 每日精选 · 2026-03-17

📅 本期精选来自 2026-03-17 ArXiv 最新论文，聚焦世界模型、视频生成、具身AI、扩散模型等核心方向，共 8 篇。 📄 论文精选 Seoul World Model: Grounding World Simulation Models in a Real-World Metropolis 链接： https://arxiv.org/abs/2603.15583 一句话总结：首个以真实城市（首尔）为锚点的大规模城市级世界模型 SWM，通过检索增强条件实现与现实环境真正对齐的长视野视频生成。 ...