ArXiv 每日精选 · 2026-03-28 | ElephantFlow's Blog

📅 本期精选来自 2026-03-28 ArXiv 最新论文，聚焦视频生成、世界模型、扩散模型、具身AI等核心方向，共 8 篇。

📄 论文精选

PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference

链接： https://arxiv.org/abs/2603.25730

一句话总结： 通过三分区 KV-Cache 压缩策略和动态 top-k 上下文选取，仅用 5 秒短视频训练即可零样本外推到 2 分钟高质量视频生成，在单卡 H200 上实现 16FPS、KV Cache 仅 4GB。

研究问题： 自回归视频扩散模型在生成长视频时面临三大瓶颈：KV-Cache 随时序线性膨胀导致显存不可持续、时序重复伪影、以及自回归错误积累。如何在不牺牲质量的前提下生成分钟级长视频？

核心方法： 提出 PackForcing 框架，将历史上下文分为三类分层压缩：(1) Sink tokens 保留早期锚帧全分辨率维持全局语义；(2) Mid tokens 通过双分支网络（3D卷积 + 低分辨率 VAE 重编码）实现 32x 时空压缩；(3) Recent tokens 保持全分辨率确保局部时序一致性。此外引入连续 Temporal RoPE Adjustment 弥补 token 删除带来的位置 gap。

技术亮点：

三分区 KV-Cache 策略将显存上限固定在 4GB，彻底解决线性增长问题
24x 时序外推能力（5秒→120秒），零样本或短视频训练均可
双分支 Mid token 网络：3D 卷积保留运动细节，VAE 重编码补充低频信息
VBench 上取得 temporal consistency 26.07、dynamic degree 56.25 的 SOTA 成绩

实验结果： VBench 基准上 SOTA 时序一致性和动态度评分；单卡 H200 生成 832×480、16FPS、2分钟视频；KV Cache 峰值仅 4GB。

应用场景： 长视频生成、影视制作、虚拟世界仿真、游戏场景生成。

研究价值： ⭐⭐⭐⭐⭐（5/5）— 从根本上解决了自回归长视频生成的显存瓶颈，24x 外推能力且仅需短视频训练，工程实用价值与学术创新性均极高，是视频生成领域近期最重要的系统性突破之一。

ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling

链接： https://arxiv.org/abs/2603.25746

一句话总结： 通过因果多镜头架构与双缓存记忆机制，将多镜头视频生成改造为流式可交互范式，实现子秒延迟、16FPS 单卡实时生成，支持用户动态指令驱动叙事。

研究问题： 现有双向多镜头视频生成模型延迟高、交互性差，无法支持实时叙事干预。如何构建可流式输出、用户可实时干预的多镜头视频生成系统？

核心方法： 将多镜头生成重构为"下一镜头预测"（next-shot generation）问题，采用因果架构替代双向架构。核心技术：(1) 先微调文生视频模型为双向下一镜头生成器，再通过 Distribution Matching Distillation 蒸馏为因果学生模型；(2) 双缓存记忆机制：全局上下文缓存维持镜头间一致性，局部上下文缓存维持镜头内一致性；(3) RoPE discontinuity indicator 区分两类缓存消除歧义。

技术亮点：

首个因果架构多镜头视频生成系统，真正支持流式推理
Distribution Matching Distillation 跨越双向→因果的训练-测试 gap
双缓存机制同时保障镜头间与镜头内视觉一致性
来自 Kling AI Research 团队，工程完成度高

实验结果： 子秒延迟、16FPS 单卡推理；质量对标甚至超过更慢的双向模型；代码与模型已开源。

应用场景： 交互式故事生成、游戏叙事、影视实时预可视化。

研究价值： ⭐⭐⭐⭐⭐（5/5）— 把多镜头视频生成带入实时交互时代，Kling AI Research 背景保证质量，因果蒸馏方案设计精巧，开源代码进一步提升影响力。

HyDRA: Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models

链接： https://arxiv.org/abs/2603.25716

一句话总结： 提出动态视频世界模型的混合记忆范式 HyDRA，专门处理运动主体出视野后重现的场景，构建了首个专用数据集 HM-World（59K 高保真片段）。

研究问题： 现有视频世界模型将场景视为静态画布，当动态主体离开视野后再次出现时，模型往往产生冻结、扭曲或消失的主体。如何让世界模型同时"记住"静态背景和"追踪"动态主体？

核心方法： 提出 Hybrid Memory 范式：模型既需精确存档静态背景，又需主动追踪动态主体的运动连续性。技术实现为 HyDRA 记忆架构：将记忆压缩为 token，利用时空相关性驱动的检索机制，选择性关注相关运动线索，保持隐藏主体的身份与运动状态。

技术亮点：

首个针对动态主体离视野重现问题的系统性研究
HM-World 数据集：59K 片段、17 场景、49 主体、精心设计的出入场事件
时空相关性检索机制，避免全局注意力的冗余计算
相机轨迹与主体轨迹解耦设计，便于精细控制

实验结果： HM-World 基准上，动态主体一致性和整体生成质量均显著超越 SOTA 方法。

应用场景： 视频世界模型、具身AI场景仿真、游戏引擎、自动驾驶预测。

研究价值： ⭐⭐⭐⭐（4/5）— 识别并定义了世界模型中一个被忽视的关键问题，数据集构建扎实，方法设计合理。作为世界模型记忆机制的专项研究，为后续工作建立了重要基线。

Vega: Learning to Drive with Natural Language Instructions

链接： https://arxiv.org/abs/2603.25741

一句话总结： Vega 将自回归范式（视觉+语言理解）与扩散范式（世界建模+动作规划）统一在一个框架内，支持自然语言指令驱动的个性化自动驾驶，构建了含 10 万场景的 InstructScene 数据集。

研究问题： 现有视觉-语言-动作模型多用语言做场景描述，缺乏对多样化用户驾驶指令的灵活跟随能力。如何构建真正支持个性化指令驱动的自动驾驶系统？

核心方法： 提出 Vision-Language-World-Action (VLWA) 模型 Vega：自回归范式处理视觉输入与语言指令，扩散范式生成未来预测（世界模型）和轨迹（动作）；两个范式间通过 joint attention 交互，各模态使用独立 projection layer 保持能力独立性。构建 InstructScene 数据集，含 ~10 万驾驶场景，标注多样化指令与对应轨迹。

技术亮点：

首个在单一模型中融合世界建模与指令驱动轨迹规划的 VLWA 框架
自回归（理解）+ 扩散（生成）的范式互补组合
InstructScene 大规模指令-轨迹配对数据集
代码已开源

实验结果： 规划性能优越，且在多样化驾驶指令跟随能力上显著优于现有方法。

应用场景： 个性化自动驾驶、驾驶仿真、具身AI中的指令跟随。

研究价值： ⭐⭐⭐⭐（4/5）— 将世界模型与个性化驾驶指令融合是有价值的创新方向，VLWA 框架设计合理，数据集构建补充了领域空白。

RefAlign: Representation Alignment for Reference-to-Video Generation

链接： https://arxiv.org/abs/2603.25743

一句话总结： RefAlign 通过显式对齐 DiT 参考分支特征与视觉基础模型语义空间，解决 Reference-to-Video 生成中的 copy-paste 伪影和多主体混淆问题，在 OpenS2V-Eval 上取得 SOTA TotalScore。

研究问题： 现有 R2V（参考图像→视频生成）方法中，不同编码器的异构特征导致模态不匹配，产生 copy-paste 伪影和多主体语义混淆。如何在不增加推理开销的前提下提升参考一致性？

核心方法： 提出 RefAlign 表示对齐框架：核心是参考对齐损失（reference alignment loss），在训练时拉近同一主体的 DiT 参考分支特征与 VFM 特征，同时推开不同主体的对应特征，提升身份一致性与语义可分辨性。该损失仅在训练阶段引入，推理无额外开销。

技术亮点：

简洁有效的对比式对齐损失，仅训练期施加
同时优化身份一致性（拉近）和语义区分度（推开）
推理零额外开销，可直接替换现有 R2V 训练
在 OpenS2V-Eval 上超越当前 SOTA

实验结果： OpenS2V-Eval benchmark 上 TotalScore 指标超越所有对比方法。

应用场景： 个性化视频广告、虚拟试衣、人物一致性视频生成。

研究价值： ⭐⭐⭐⭐（4/5）— 抓住了 R2V 任务中模态不匹配的本质问题，解决方案简洁实用，工业应用价值明确。

LIGHT: Unleashing Guidance Without Classifiers for Human-Object Interaction Animation

链接： https://arxiv.org/abs/2603.25734

一句话总结： LIGHT 基于扩散强制（diffusion forcing）思想，让去噪节奏本身产生数据驱动的接触感知引导，无需手工设计接触先验，显著提升 HOI 动画的接触质量与泛化能力。

研究问题： 生成逼真的人-物交互动画需要同时建模动态人体动作与多样物体几何，现有扩散方法依赖手工接触先验或运动学约束，泛化性差。如何让引导信号从数据中自然涌现？

核心方法： 基于 diffusion forcing 思想，将表示分解为模态特定组件，为不同组件分配个性化噪声级别和异步去噪计划——更干净的组件通过 cross-attention 引导更嘈杂的组件，无需辅助分类器。训练时用广泛的合成物体几何增强数据，促进接触语义对几何多样性的不变性。

技术亮点：

去噪节奏即引导：比 classifier-free guidance 更有效地镜像接触先验效果
无需手工设计接触约束，完全数据驱动
合成物体几何增强策略提升跨物体泛化
对未见物体和任务的强泛化能力

实验结果： 接触保真度、HOI 真实感及对未见物体的泛化均优于现有方法。

应用场景： 人-物交互动画、具身AI动作合成、影视特效、机器人灵巧操作仿真。

研究价值： ⭐⭐⭐⭐（4/5）— 将 diffusion forcing 应用于 HOI 动画是有见地的迁移，数据驱动的引导思路可扩展到其他接触密集型任务，具备较好的方法论价值。

链接： https://arxiv.org/abs/2603.25706

一句话总结： Wan-Weaver（CVPR 2026）通过规划器-可视化器解耦架构，无需真实交错数据即实现文-图交错生成，并构建了首个多维交错生成评估基准。

研究问题： 统一多模态模型通常只接受多模态输入但输出单一模态，交错内容生成因训练数据稀缺和长程跨模态上下文建模困难而受限。如何在无真实交错数据的情况下实现高质量交错生成？

核心方法： 将交错生成分解为文本规划（planner）和视觉一致性建模（visualizer）：规划器生成视觉内容的稠密文本描述，可视化器据此合成图像。利用文本代理数据（visual content 用文本表示）大规模训练规划器，用参考图像引导数据训练可视化器，绕过真实交错数据的匮乏。

技术亮点：

解耦训练策略完全绕过真实交错数据需求
文本代理数据构建规模化规划器训练
构建首个覆盖多用例、多维度的交错生成基准
CVPR 2026 camera-ready，阿里云团队出品

实验结果： 无需任何真实交错数据，Wan-Weaver 在新构建基准和现有方法上均取得优越表现。

应用场景： 多模态故事生成、图文并茂内容创作、多模态对话系统。

研究价值： ⭐⭐⭐⭐（4/5）— 解耦训练思路有效规避数据瓶颈，CVPR 2026 入选验证了技术价值，对统一多模态生成模型的发展有参考意义。

RC2: Cycle-Consistent Reinforcement Learning Improves Multimodal Reasoning

链接： https://arxiv.org/abs/2603.25720

一句话总结： RC2 通过跨模态循环一致性约束构造无标签奖励信号，用强化学习驱动多模态模型对齐内部表示，推理精度提升最高 7.6 分。

研究问题： 多模态模型常对同一概念的视觉与文本表示给出矛盾预测，传统投票机制会放大系统性偏差。能否将跨模态不一致性本身转化为学习信号？

核心方法： 提出 RC2（Reinforcement learning with Cross-modal Cycle Consistency）：要求模型执行后向推理（反转模态、重建答案），通过前向-后向循环的结构一致性构造稠密的无标签奖励，利用强化学习优化使模型自主对齐内部多模态表示。

技术亮点：

无标签奖励信号，不依赖额外标注数据
循环一致性约束，从结构层面而非数据层面改善推理
抑制模态特定错误，提升跨模态一致性
推理精度提升最高 7.6 分，方法轻量

实验结果： 多个多模态推理基准上提升最高 7.6 points；方法通用，适用于多种多模态架构。

应用场景： 多模态推理、视觉问答、多模态 LLM 对齐。

研究价值： ⭐⭐⭐⭐（4/5）— 将循环一致性从视觉对应迁移到多模态推理是有新意的思路，无标签奖励的构造方式简洁有效，对多模态 RL 训练有参考价值。

📊 今日研究趋势

2026-03-28 的 ArXiv 提交中，视频生成是最热门方向：PackForcing 和 ShotStream 分别从长视频效率和流式交互两个维度推进视频生成前沿，反映出业界对"实用化视频生成"的高度关注。世界模型方向出现了 HyDRA 对动态主体记忆的专项研究，以及 Vega 对驾驶世界模型的统一框架尝试，显示世界模型正从泛化能力向细粒度控制演进。多模态统一生成（Wan-Weaver）和多模态推理对齐（RC2）表明，如何让模型真正理解并生成跨模态一致内容，仍是活跃的开放问题。扩散模型的具身应用（LIGHT 的 HOI 动画）持续升温，生成模型向交互式、可控物理动画的延伸已成明确趋势。整体来看，CVPR 2026 相关论文在本期大量涌现，预印本密度较高，标志着该领域进入一个成果集中释放期。

🏆 最值得关注的 3 篇

PackForcing — 从根本上解决长视频生成显存瓶颈，24x 时序外推 + 仅需短视频训练，工程实用性与学术贡献同等突出，是近期视频生成最重要的系统性进展。
ShotStream — 将多镜头视频生成带入实时流式时代，因果蒸馏方案设计精妙，Kling AI Research 出品保证工程完成度，交互叙事场景的开创性工作。
HyDRA — 世界模型记忆机制的专项突破，首次系统定义并解决"动态主体出视野重现"问题，HM-World 数据集为领域建立重要基准。

数据来源：ArXiv 2026-03-28 | 分析生成时间：2026-03-29 06:00 (北京时间)

📄 论文精选#

PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference#

ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling#

HyDRA: Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models#

Vega: Learning to Drive with Natural Language Instructions#

RefAlign: Representation Alignment for Reference-to-Video Generation#

LIGHT: Unleashing Guidance Without Classifiers for Human-Object Interaction Animation#

Wan-Weaver: Interleaved Multi-modal Generation via Decoupled Training#

RC2: Cycle-Consistent Reinforcement Learning Improves Multimodal Reasoning#

📊 今日研究趋势#

🏆 最值得关注的 3 篇#

📄 论文精选

PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference

ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling

HyDRA: Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models

Vega: Learning to Drive with Natural Language Instructions

RefAlign: Representation Alignment for Reference-to-Video Generation

LIGHT: Unleashing Guidance Without Classifiers for Human-Object Interaction Animation

Wan-Weaver: Interleaved Multi-modal Generation via Decoupled Training

RC2: Cycle-Consistent Reinforcement Learning Improves Multimodal Reasoning

📊 今日研究趋势

🏆 最值得关注的 3 篇