VLA | ElephantFlow's Blog

ArXiv 每日精选 · 2026-03-29

📅 本期精选来自 2026-03-29 ArXiv 最新论文，聚焦视频生成、世界模型、VLA具身智能、视频编辑等核心方向，共 8 篇。 📄 论文精选 ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling 链接： https://arxiv.org/abs/2603.25746 一句话总结：提出因果多镜头视频生成架构 ShotStream，通过分布匹配蒸馏实现流式交互式故事叙述，单GPU推理速度达 16 FPS。 ...

ArXiv 每日精选 · 2026-03-21

📅 本期精选来自 2026-03-21 ArXiv 最新论文，聚焦扩散模型、具身智能（VLA）、3D 场景感知、视觉语言模型等核心方向，共 7 篇。 📄 论文精选 Not All Features Are Created Equal: A Mechanistic Study of Vision-Language-Action Models 链接： https://arxiv.org/abs/2603.19233 ...

ArXiv 每日精选 · 2026-03-20

📅 本期精选来自 2026-03-20 ArXiv 最新论文，聚焦离散生成模型、运动生成、视频编辑、具身 AI 与 VLA 可解释性等核心方向，共 8 篇。 📄 论文精选 CubiD: Discrete Visual Generation on High-Dimensional Representation Tokens 链接： https://arxiv.org/abs/2603.19232 一句话总结：首个在高维（768–1024 维）预训练表示上实现离散生成的模型，打破了离散生成只能用低维 token（8–32 维）的瓶颈，同时让同一套 token 兼顾理解与生成任务。 ...

ArXiv 每日精选 · 2026-03-17

📅 本期精选来自 2026-03-17 ArXiv 最新论文，聚焦世界模型、视频生成、具身AI、扩散模型等核心方向，共 8 篇。 📄 论文精选 Seoul World Model: Grounding World Simulation Models in a Real-World Metropolis 链接： https://arxiv.org/abs/2603.15583 一句话总结：首个以真实城市（首尔）为锚点的大规模城市级世界模型 SWM，通过检索增强条件实现与现实环境真正对齐的长视野视频生成。 ...