ArXiv 每日精选 · 2026-03-29

📅 本期精选来自 2026-03-29 ArXiv 最新论文,聚焦视频生成、世界模型、VLA具身智能、视频编辑等核心方向,共 8 篇。 📄 论文精选 ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling 链接: https://arxiv.org/abs/2603.25746 一句话总结: 提出因果多镜头视频生成架构 ShotStream,通过分布匹配蒸馏实现流式交互式故事叙述,单GPU推理速度达 16 FPS。 ...

2026年3月30日 · 11 分钟 · 5074 字 · elephantflow

ArXiv 每日精选 · 2026-03-21

📅 本期精选来自 2026-03-21 ArXiv 最新论文,聚焦扩散模型、具身智能(VLA)、3D 场景感知、视觉语言模型等核心方向,共 7 篇。 📄 论文精选 Not All Features Are Created Equal: A Mechanistic Study of Vision-Language-Action Models 链接: https://arxiv.org/abs/2603.19233 ...

2026年3月22日 · 11 分钟 · 5286 字 · elephantflow

ArXiv 每日精选 · 2026-03-20

📅 本期精选来自 2026-03-20 ArXiv 最新论文,聚焦离散生成模型、运动生成、视频编辑、具身 AI 与 VLA 可解释性等核心方向,共 8 篇。 📄 论文精选 CubiD: Discrete Visual Generation on High-Dimensional Representation Tokens 链接: https://arxiv.org/abs/2603.19232 一句话总结: 首个在高维(768–1024 维)预训练表示上实现离散生成的模型,打破了离散生成只能用低维 token(8–32 维)的瓶颈,同时让同一套 token 兼顾理解与生成任务。 ...

2026年3月21日 · 11 分钟 · 5414 字 · elephantflow

ArXiv 每日精选 · 2026-03-17

📅 本期精选来自 2026-03-17 ArXiv 最新论文,聚焦世界模型、视频生成、具身AI、扩散模型等核心方向,共 8 篇。 📄 论文精选 Seoul World Model: Grounding World Simulation Models in a Real-World Metropolis 链接: https://arxiv.org/abs/2603.15583 一句话总结: 首个以真实城市(首尔)为锚点的大规模城市级世界模型 SWM,通过检索增强条件实现与现实环境真正对齐的长视野视频生成。 ...

2026年3月18日 · 11 分钟 · 5171 字 · elephantflow