📅 本期精选来自 2026-03-29 ArXiv 最新论文,聚焦视频生成、世界模型、VLA具身智能、视频编辑等核心方向,共 8 篇。


📄 论文精选


ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling

链接: https://arxiv.org/abs/2603.25746

一句话总结: 提出因果多镜头视频生成架构 ShotStream,通过分布匹配蒸馏实现流式交互式故事叙述,单GPU推理速度达 16 FPS。

研究问题: 现有多镜头视频生成方法(如双向架构)交互性差、延迟高,难以支持实时互动故事创作。

核心方法:

  • 将任务重新表述为基于历史上下文的"下一镜头生成"(next-shot generation)
  • 将双向 text-to-video 模型蒸馏为因果学生模型(Distribution Matching Distillation)
  • 引入双缓存记忆机制:全局上下文缓存(镜头间一致性)+ 局部上下文缓存(镜头内一致性)
  • 采用 RoPE 不连续标记区分两种缓存,消除时序歧义

技术亮点:

  • 单 GPU 实现 16 FPS 实时推理,延迟低于 1 秒
  • 两阶段蒸馏策略:先基于真值历史的镜头内 self-forcing,再扩展为基于自生成历史的镜头间 self-forcing,有效弥合训练-测试分布差距
  • 支持通过流式 prompt 动态指导叙事走向,真正实现交互式生成
  • 效果匹配甚至超越较慢的双向模型(来自 Kling AI Research)

实验结果: 在多镜头视频生成质量上匹敌双向模型,同时大幅降低推理延迟。已开源代码和模型。

应用场景: 交互式影视创作、游戏叙事生成、实时视频故事生成。

研究价值: ⭐⭐⭐⭐⭐(5/5)— 实时交互式多镜头视频生成是视频生成的重大突破方向,因果架构+蒸馏的组合技术路线创新,来自 Kling AI Research,工业落地可行性极强。


Vega: A Unified Vision-Language-World-Action Model for Instruction-Following Driving

链接: https://arxiv.org/abs/2603.25741

一句话总结: 提出统一的 Vision-Language-World-Action 模型 Vega,结合自回归与扩散范式,实现语言指令驱动的自动驾驶规划与世界建模。

研究问题: 现有端到端自动驾驶缺乏对多样化自然语言指令的灵活跟随能力,驾驶体验无法个性化。

核心方法:

  • 构建大规模驾驶数据集 InstructScene(约 10 万场景,配套多样化驾驶指令和轨迹)
  • 采用自回归范式处理视觉输入(vision)和语言指令(language)
  • 采用扩散范式生成未来预测(world modeling)和轨迹(action)
  • 联合注意力机制实现跨模态交互,不同模态独立映射层提升表达能力

技术亮点:

  • 首次将"世界建模"显式融入 VLA 自动驾驶框架,架构上统一四种能力
  • 自回归+扩散的混合范式兼顾语义理解与连续轨迹生成
  • 指令跟随能力强,支持如"缓慢靠右"“快速超车"等细粒度自然语言指令
  • 代码已开源(github.com/zuosc19/Vega)

实验结果: 在规划性能和指令跟随能力上均优于现有基线,具备较强的泛化性。

应用场景: 个性化自动驾驶、指令驱动轨迹规划、驾驶场景的世界模型预测。

研究价值: ⭐⭐⭐⭐⭐(5/5)— 将世界模型明确引入 VLA 驾驶框架,架构设计具有前瞻性;混合范式统一四种能力是该方向少见的系统性工作,可能引领下一代自动驾驶范式。


HyDRA: Hybrid Memory for Dynamic Video World Models

链接: https://arxiv.org/abs/2603.25716

一句话总结: 提出混合记忆范式 HyDRA,解决视频世界模型中动态主体出入视野时身份和运动丢失的问题,并构建专用基准数据集 HM-World。

研究问题: 现有视频世界模型将环境视为静态画布,当动态主体(如人物、物体)暂时离开视野后重新出现时,模型常产生"冻结、扭曲或消失"等问题。

核心方法:

  • 提出"混合记忆"新范式:模型需同时充当静态背景的精确记录者和动态主体的主动追踪者
  • 构建 HM-World 数据集:59K 高保真视频片段,包含 17 个多样化场景、49 个不同主体,精心设计"出入事件”
  • 设计 HyDRA 专用记忆架构:将记忆压缩为 token,利用时空相关性驱动的检索机制
  • 选择性关注相关运动线索,保持隐藏主体的身份和运动连续性

技术亮点:

  • 首个专注于"动态主体出入视野"的视频世界模型数据集 HM-World
  • 记忆分离设计:显式区分背景静态记忆和主体动态记忆
  • 时空相关性驱动的检索:非全量检索,聚焦运动线索
  • 相机轨迹与主体轨迹解耦标注,评估更严格

实验结果: 在 HM-World 上,动态主体一致性和整体生成质量显著优于当前 SOTA 方法。

应用场景: 游戏世界模拟、具身 AI 环境建模、视频预测与生成。

研究价值: ⭐⭐⭐⭐(4/5)— 识别并系统化定义了视频世界模型的关键缺陷,提出的分离记忆设计具有重要启发性;新数据集将推动该领域研究。


LaMP: Learning Vision-Language-Action Policies with 3D Scene Flow as Latent Motion Prior

链接: https://arxiv.org/abs/2603.25399

一句话总结: 提出双专家 VLA 框架 LaMP,以密集 3D 场景流作为隐运动先验,通过门控交叉注意力将运动专家与动作专家耦合,显著提升机器人操控鲁棒性。

研究问题: 现有 VLA 模型直接从 2D 语义视觉特征回归动作,在陌生空间动态下泛化性差,无法隐式学习复杂的 3D 物理交互。

核心方法:

  • 双专家架构:Motion Expert(运动专家)+ Action Expert(动作专家)
  • 运动专家:生成一步部分去噪的 3D 场景流(flow-matching 范式)
  • 通过门控交叉注意力(gated cross-attention)将运动专家的隐状态注入动作专家
  • 无需完整多步重建,运动隐状态轻量化传递,推理效率高

技术亮点:

  • 将 3D 场景流(3D scene flow)作为隐先验,显式编码物体运动信息
  • flow-matching 范式生成场景流,与扩散策略自然兼容
  • 门控机制使动作预测受运动信息动态调节,而非硬耦合
  • OOD 扰动测试下平均提升 9.7%,鲁棒性显著

实验结果: 在 LIBERO、LIBERO-Plus、SimplerEnv-WidowX 仿真基准及真实机器人实验上均达到最高平均成功率;OOD 条件下相对最强基线提升 9.7%。

应用场景: 机器人操控策略学习、VLA 模型泛化、3D 感知驱动的动作预测。

研究价值: ⭐⭐⭐⭐(4/5)— 以 3D 场景流作为运动先验的思路直接、有效,双专家架构设计优雅;强 OOD 鲁棒性是该方向难点,实验结果有说服力。


Drive My Way: Preference Alignment of Vision-Language-Action Model for Personalized Driving

链接: https://arxiv.org/abs/2603.25740

一句话总结: 提出 DMW 个性化驾驶框架,通过学习用户嵌入实现驾驶风格的长期习惯对齐与短期自然语言指令适配(CVPR 2026)。

研究问题: 现有端到端自动驾驶系统优化通用目标或依赖固定驾驶模式,无法适应个体驾驶习惯差异(加减速、变道、避让等)。

核心方法:

  • 构建个性化驾驶数据集:跨多位真实驾驶员、多种驾驶条件采集
  • 从数据集中学习 user embedding(用户风格嵌入)
  • VLA 策略在规划时以 user embedding 为条件,实现长期习惯建模
  • 自然语言指令提供短期实时引导(双层偏好对齐)

技术亮点:

  • 首次在 VLA 驾驶框架中引入细粒度用户偏好嵌入
  • 双层对齐:长期用户嵌入(习惯)+ 短期语言指令(意图)
  • 闭环评测:在 Bench2Drive 基准上验证风格适配性能
  • 用户研究证实生成行为可被识别为对应驾驶员的个人风格(CVPR 2026)

实验结果: 在 Bench2Drive 闭环评测中,风格指令适配性能提升;用户研究证实个性化效果。

应用场景: 个性化自动驾驶、以人为中心的驾驶助手、多用户驾驶风格学习。

研究价值: ⭐⭐⭐⭐(4/5)— 个性化驾驶是未来自动驾驶落地的关键课题,VLA+用户偏好嵌入思路清晰;CVPR 2026 接收,学术认可度高。


SoftMimicGen: A Data Generation System for Scalable Robot Learning in Deformable Object Manipulation

链接: https://arxiv.org/abs/2603.25725

一句话总结: 提出 SoftMimicGen 自动化数据生成流水线,面向可变形物体操作任务,覆盖四种机器人形态,填补仿真合成数据范式的关键空白。

研究问题: 现有机器人合成数据生成范式局限于刚性物体任务,可变形物体(布料、绳索、组织等)操作缺乏高质量仿真数据。

核心方法:

  • 自动化数据生成流水线:从少量人工演示自动扩展为大规模训练数据集
  • 高保真仿真环境套件:覆盖毛绒玩具、绳索、纸巾、毛巾等可变形物体
  • 操作行为多样:高精度穿线、动态甩动、折叠、抓取放置
  • 支持四种机器人形态:单臂、双臂、类人形机器人、手术机器人

技术亮点:

  • 首个覆盖多样可变形物体的大规模机器人操作仿真数据生成系统
  • 跨形态泛化:同一流水线支持四种截然不同的机器人形态
  • 可变形物体仿真精度高,行为多样性广
  • 合成数据有效减少真实世界数据需求,促进 novel scenario 泛化

实验结果: 基于生成数据训练的策略在任务套件上表现优异;系统性分析了数据生成质量与训练效果的关系。

应用场景: 可变形物体机器人操作、手术机器人技能学习、类人形机器人训练数据生成。

研究价值: ⭐⭐⭐⭐(4/5)— 解决了机器人学习数据瓶颈中被严重忽视的可变形物体问题;多形态、多类别覆盖使其具有广泛工程价值,是推动具身 AI 实用化的重要基础设施。


Trace: Object Motion Editing in Videos with First-Frame Trajectory Guidance

链接: https://arxiv.org/abs/2603.25707

一句话总结: 提出 Trace 框架,用户只需在锚帧上设计目标轨迹,即可实现视频中物体运动路径的可控编辑,同时保持原始场景内容一致性。

研究问题: 现有视频编辑方法主要操控外观,或依赖用户难以提供的点轨迹(尤其在有相机运动时);缺乏实用、易用的物体运动路径编辑方案。

核心方法:

  • 两阶段流水线:跨视图运动变换 + 运动条件视频重合成
  • 跨视图运动变换模块:将首帧路径设计映射到相机运动下的帧对齐 box 轨迹
  • 运动条件视频重合成模块:沿轨迹重新生成目标物体,保留其余内容
  • 仅需首帧一次性标注,推理简洁

技术亮点:

  • 用户界面极简:仅在首帧锚点上画轨迹即可
  • 显式处理相机运动下的轨迹变换,解决了 camera motion 场景下的实用性难题
  • 时间一致性强,编辑区域与背景融合自然
  • 无需逐帧标注或复杂的 point tracking 操作

实验结果: 在多样真实视频上,物体运动编辑的一致性、真实性和可控性优于近期 image-to-video 和 video-to-video 方法。

应用场景: 视频内容创作与编辑、影视后期制作、广告创意视频生成。

研究价值: ⭐⭐⭐⭐(4/5)— 解决了视频物体运动编辑这一有明确需求的实用问题;首帧引导+相机感知变换的设计兼顾易用性与技术深度。


VISAGE: Visual Attention for Hallucination-Resilient Multimodal Diffusion LLMs

链接: https://arxiv.org/abs/2603.25711

一句话总结: 提出免训练解码框架 VISAGE,通过量化交叉注意力的空间熵来检测和纠正多模态扩散语言模型中的幻觉,无需修改模型参数。

研究问题: 多模态扩散大语言模型(MDLLM)在并行掩码解码中,候选 token 仅基于文本似然排序而忽略视觉定位验证,导致幻觉频发。

核心方法:

  • 重新将幻觉定义为"局部优化错误":解码器利用语言捷径最大化代理得分
  • 引入空间熵(spatial entropy of cross-attention)量化注意力分布的空间集中度
  • 通过强制跨注意力头的定位共识(localization consensus),惩罚空间均匀分布
  • 重新排序 token 提交,偏向视觉定位更集中的候选项
  • 完全免训练,仅在推理时调整解码策略

技术亮点:

  • 利用注意力空间熵作为幻觉代理度量,理论上有稳定性保证(有界目标损失)
  • 零训练成本,直接即插即用于任意 MDLLM
  • 多头共识机制增强鲁棒性,单头噪声不影响整体判断
  • 在 MMMU-val 上相对提升 8.59%,HallusionBench 上提升 7.75%

实验结果: 在幻觉敏感和通用目的基准测试上均表现出鲁棒的性能提升(MMMU-val +8.59%,HallusionBench +7.75%)。

应用场景: 多模态生成模型可靠性提升、视觉问答、图文一致性生成。

研究价值: ⭐⭐⭐(3/5)— 以注意力熵为幻觉指标的角度新颖;免训练设计实用价值高,但改进幅度有限,适用范围暂局限于 MDLLM 架构。


📊 今日研究趋势

2026-03-29 ArXiv 的论文整体呈现出几条清晰的主线:

视频生成走向实时与交互:ShotStream 将多镜头视频生成的推理速度提升到 16 FPS,标志着视频生成从离线批处理向实时交互式应用迈进,这一趋势在工业界(Kling AI)的背书下具有高度可落地性。

VLA 模型向世界建模深度整合:Vega 将世界模型预测纳入 VLA 框架的核心能力,而非外挂;LaMP 以 3D 场景流作为物理先验,均体现出 VLA 正在从"感知-动作"向"感知-理解-预测-动作"的四元架构升级。

具身 AI 数据基础设施完善:SoftMimicGen 和 PAWS 均关注数据获取与标注的自动化,前者攻克可变形物体仿真,后者从 Egocentric 视频中自动提取关节运动,为大规模机器人学习奠基。

个性化与用户对齐成为新课题:Drive My Way 将偏好对齐(preference alignment)引入自动驾驶,预示着下一代 AI 系统将从"通用"转向"以人为中心"。

总体来看,生成模型正快速从研究原型走向工程实践,具身 AI 的数据瓶颈在系统性工作推动下逐步打通。


🏆 最值得关注的 3 篇

  1. ShotStream — 将多镜头视频生成速度推至 16 FPS 实时,因果架构+蒸馏策略具有工业落地价值,来自 Kling AI Research,代表工业前沿。
  2. Vega — 首次将世界模型预测与 VLA 自动驾驶在架构上统一,自回归+扩散混合范式设计前瞻,代码开源,对世界模型和自动驾驶双方向研究者均有重要参考价值。
  3. HyDRA — 精确定义并系统解决了视频世界模型的"动态主体遮挡/出视野"问题,HM-World 数据集将推动该子方向形成独立研究赛道。

数据来源:ArXiv 2026-03-29 | 分析生成时间:2026-03-30 06:00 (北京时间)