ArXiv 每日精选 · 2026-03-27 | ElephantFlow's Blog

📅 本期精选来自 2026-03-27 ArXiv 最新论文，聚焦视频生成、世界模型、扩散模型、具身AI等核心方向，共 8 篇。

📄 论文精选

PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference

链接： https://arxiv.org/abs/2603.25730

一句话总结： 提出 PackForcing 框架，通过三分区 KV-cache 压缩策略，仅用5秒短视频训练即可在单张 H200 上生成2分钟高质量长视频，实现 24 倍时间外推。

研究问题： 自回归视频扩散模型在长视频生成中面临 KV-cache 线性增长、时序重复、误差累积三大瓶颈，导致长视频生成质量快速下降且显存消耗难以控制。

核心方法： PackForcing 将历史上下文分为三类进行分层压缩管理：(1) Sink Tokens——保留早期锚帧全分辨率维持全局语义；(2) Mid Tokens——通过双分支网络结合 3D 卷积与低分辨率 VAE 重编码实现 32 倍时空压缩；(3) Recent Tokens——保留全分辨率确保局部时序连贯性。同时引入动态 Top-k 上下文选择机制与连续 Temporal RoPE Adjustment 来对齐 dropped tokens 引起的位置偏移。

技术亮点：

三分区 KV-cache 策略将显存占用限定在 4 GB（bounded），突破线性增长瓶颈
32 倍时空压缩率（Mid Tokens），双分支网络融合 3D 卷积与 VAE 重编码
24 倍时间外推能力：5 秒训练 → 120 秒推理，Zero-shot 或微调均可
单张 H200 生成 832×480 / 16 FPS / 2 分钟视频

实验结果： VBench 评测中时序一致性达 26.07，动态程度达 56.25，均为 SOTA。在视频时序质量与动态性能上超越已有方法。

应用场景： 长视频生成、影视内容创作、游戏场景生成、世界模型时序推演。

研究价值： ⭐⭐⭐⭐⭐（5/5）— 极具实用价值的工程创新：以极低的训练成本（短视频）实现了长视频生成能力的质的突破，KV-cache 分层压缩思路对业界有直接参考意义。

HyDRA: Out of Sight but Not Out of Mind — Hybrid Memory for Dynamic Video World Models

链接： https://arxiv.org/abs/2603.25716

一句话总结： 提出 Hybrid Memory 新范式与 HyDRA 记忆架构，解决视频世界模型中动态主体离开视野后再次出现时的身份一致性与运动连续性问题，并构建首个专属大规模基准 HM-World。

研究问题： 现有视频世界模型将环境视为静态背景，当动态主体（人物、物体）短暂离开视野后重新进入时，模型常产生冻结、扭曲或消失的主体，无法保持运动连续性与外观一致性。

核心方法： 提出 Hybrid Memory 范式，要求模型同时充当静态背景的"精确档案员"和动态主体的"追踪器"。具体实现上，HyDRA 将记忆压缩为 tokens，并利用时空相关性驱动的检索机制（spatiotemporal relevance-driven retrieval）有选择性地关注相关运动线索。同时构建 HM-World 数据集（59K 高保真片段，解耦相机与主体轨迹，覆盖 17 场景、49 主体，含精心设计的离场-入场事件）。

技术亮点：

Hybrid Memory 范式：首次明确区分世界模型对静态背景与动态主体的不同记忆需求
时空相关性驱动检索：仅检索相关运动线索，避免冗余历史上下文干扰
HM-World：首个专注混合记忆评估的大规模视频数据集（59K clips）
涵盖 exit-entry 事件设计，严格评估主体离场后一致性

实验结果： 在 HM-World 基准上，HyDRA 在动态主体一致性和整体生成质量上均显著超越 SOTA 方法。

应用场景： 具身智能场景仿真、自动驾驶世界模型、视频预测、游戏 AI 场景生成。

研究价值： ⭐⭐⭐⭐⭐（5/5）— 识别出世界模型领域一个被忽视的关键问题（动态主体遮挡后的记忆），并提出了系统性解决方案，同时贡献了高质量基准数据集，对世界模型研究方向有重要推进作用。

Persistent Robot World Models: Stabilizing Multi-Step Rollouts via Reinforcement Learning

链接： https://arxiv.org/abs/2603.25685

一句话总结： 提出基于 RL 后训练方案，让机器人世界模型在自身自回归展开（rollout）上进行训练，显著缓解多步推演中误差累积问题，在 DROID 数据集上建立新 SOTA。

研究问题： 机器人动作条件视频世界模型（action-conditioned world model）在短期预测上表现良好，但自回归部署时误差快速累积导致视觉质量急剧退化，限制了其在机器人仿真中的实用性。

核心方法： 引入 RL 后训练方案：将最近提出的 contrastive RL objective 适配用于扩散模型，在世界模型自身生成的自回归 rollout 上而非真实历史上训练，使模型学会在自己的预测分布下保持稳定。设计了从同一 rollout 状态生成多个候选变长未来片段并进行相互比较的训练协议，同时开发了多视角视觉保真度奖励（融合感知指标，片段级聚合）。

技术亮点：

RL 后训练在 diffusion 模型上的理论收敛保证完整继承
多视角视觉保真度奖励：互补感知指标跨视角聚合，低方差训练信号
变长未来候选对比：自然覆盖不同时间尺度的预测质量
无需修改模型架构，后训练即插即用

实验结果： DROID 数据集上全面超越最强 baseline：LPIPS（外部相机）降低 14%，SSIM（腕部相机）提升 9.1%，成对比较胜率 98%，盲评人工偏好率 80%。

应用场景： 机器人操作仿真、机器人策略评估、具身智能数据增广。

研究价值： ⭐⭐⭐⭐⭐（5/5）— 将 RL 后训练引入机器人世界模型，从根本上解决了多步 rollout 误差累积问题，方法论上有重要参考价值，实验结果令人信服。

LIGHT: Unleashing Guidance Without Classifiers for Human-Object Interaction Animation

链接： https://arxiv.org/abs/2603.25734

一句话总结： 提出 LIGHT，通过扩散模型的去噪节奏（denoising pace）自然产生数据驱动的接触引导，无需手工设计接触先验即可生成高质量人-物交互动画。

研究问题： 基于扩散的人-物交互（HOI）动画方法通常依赖手工设计的接触先验或运动学约束来提升接触质量，这类方法脆弱且难以泛化到多样化物体几何形状。

核心方法： 基于 Diffusion Forcing 框架，将表示分解为模态特定组件（如人体运动、物体姿态），并为各模态分配个性化噪声水平与异步去噪调度（asynchronous denoising schedules）。更干净（cleaner）的组件通过 cross-attention 引导更嘈杂的组件，从而在无辅助分类器的情况下产生隐式引导。训练时用广泛的合成物体几何增广以鼓励接触语义对几何多样性的不变性。

技术亮点：

去噪节奏即引导：数据驱动地产生接触感知引导，无需手工先验
异步去噪调度：不同模态分配不同噪声水平，实现跨模态隐式引导
合成几何增广：强化接触语义对物体形状多样性的泛化能力
对未见物体和任务的泛化能力显著优于传统 CFG

实验结果： 大量实验表明 LIGHT 在接触保真度（contact fidelity）、生成真实性和对未见物体/任务的泛化上均优于基于接触先验的传统方法。

应用场景： 人-物交互动画生成、虚拟角色运动合成、游戏动作系统、具身智能操作策略预演。

研究价值： ⭐⭐⭐⭐（4/5）— 创造性地利用扩散模型本身的去噪过程产生引导信号，思路新颖，对 Motion Generation 领域有启发意义。

链接： https://arxiv.org/abs/2603.25706

一句话总结： 提出 Wan-Weaver，将交错多模态生成（文图交错输出）解耦为文本规划与视觉一致性建模两阶段，无需真实交错数据即可实现高质量文图交错生成（CVPR 2026）。

研究问题： 现有统一多模态模型虽可接受多模态输入，但通常只能输出单一模态。产生交错内容（文图交替输出）受限于训练数据稀缺和长程跨模态上下文建模困难。

核心方法： 将交错生成分解为两个子问题：(1) Planner（规划器）：生成视觉内容的稠密文本描述，使用大规模文本代理交错数据（textual-proxy interleaved data，视觉内容用文本表示）训练；(2) Visualizer（可视化器）：根据规划器描述合成图像，使用参考引导图像数据训练。这种解耦设计规避了真实交错数据的稀缺问题。

技术亮点：

文本代理数据：规模化解决交错训练数据不足问题
参考引导图像数据：解决跨模态长程视觉一致性问题
解耦训练：Planner 与 Visualizer 独立训练，灵活可扩展
无需真实交错数据即可超越现有方法

实验结果： CVPR 2026 Camera-ready。在自建交错生成基准（多场景多维度）上优于所有现有方法，同时在理解任务上保持竞争力。

应用场景： 图文交错内容创作、图文故事生成、多模态报告自动生成、视觉问答结合图像生成。

研究价值： ⭐⭐⭐⭐（4/5）— 解耦策略优雅地绕开了训练数据稀缺问题，生成能力强，是多模态统一生成方向的重要进展。

Vega: Learning to Drive with Natural Language Instructions

链接： https://arxiv.org/abs/2603.25741

一句话总结： 提出 Vega，一个统一的视觉-语言-世界-动作模型，将自回归范式（处理视觉与语言输入）与扩散范式（生成世界预测与轨迹）融合，实现基于自然语言指令的个性化驾驶。

研究问题： 现有端到端自动驾驶 VLA 模型主要使用语言进行场景描述或推理，缺乏遵循多样化用户指令实现个性化驾驶的能力。

核心方法： 构建大规模驾驶数据集 InstructScene（约 10 万场景，含多样化驾驶指令与对应轨迹）。Vega 采用双范式架构：自回归范式处理视觉输入和语言指令，扩散范式生成未来预测（世界建模）和轨迹（动作）。引入联合注意力机制实现多模态交互，为不同模态使用独立投影层提升能力。

技术亮点：

自回归 + 扩散双范式统一架构
World Model 与 Action 生成协同训练
InstructScene 大规模指令-轨迹数据集
联合注意力实现多模态深度交互

实验结果： 在规划性能和指令遵循能力上均达到优异表现，为更智能的个性化驾驶系统奠定基础。

应用场景： 个性化自动驾驶、具身导航、指令条件机器人控制。

研究价值： ⭐⭐⭐⭐（4/5）— 将世界模型与 VLA 驾驶框架深度融合，同时引入语言指令条件，代表了端到端驾驶的重要演进方向。

SoftMimicGen: A Data Generation System for Scalable Robot Learning in Deformable Object Manipulation

链接： https://arxiv.org/abs/2603.25725

一句话总结： 提出 SoftMimicGen，首个面向可变形物体操作任务的自动化数据生成管线，覆盖 4 类机器人形态和多种可变形物体类型，显著降低真实数据需求。

研究问题： 合成仿真数据范式已在刚体任务上被证明有效，但可变形物体操作（衣物折叠、绳子操作等）由于仿真难度大，一直是数据生成的盲区，限制了机器人学习的覆盖范围。

核心方法： 构建高保真仿真环境套件，涵盖 stuffed animal、绳子（rope）、纸巾（tissue）、毛巾（towel）等可变形物体，以及高精度穿线（threading）、动态甩动（whipping）、折叠（folding）、拾放（pick-and-place）等操作行为。支持四种机器人形态：单臂、双臂、人形机器人、手术机器人。基于 MimicGen 思路自动化扩展可变形物体的演示数据。

技术亮点：

首个可变形物体操作的大规模数据生成系统
覆盖 4 种机器人形态（单臂/双臂/人形/手术机器人）
4 类可变形物体 × 多种操作行为的高保真仿真套件
自动化数据生成大幅降低真实世界数据采集成本

实验结果： 通过 SoftMimicGen 生成的数据集训练的策略在任务套件上表现良好，系统分析验证了数据生成范式的有效性。

应用场景： 可变形物体机器人操作、仿真到现实迁移、家庭服务机器人、外科手术机器人。

研究价值： ⭐⭐⭐⭐（4/5）— 填补了机器人学习数据生成在可变形物体领域的空白，为具身智能中真实世界物体操作的泛化提供了重要基础设施。

Drive My Way: Preference Alignment of Vision-Language-Action Model for Personalized Driving

链接： https://arxiv.org/abs/2603.25740

一句话总结： 提出 Drive My Way (DMW)，从个性化驾驶数据集学习用户嵌入（user embedding），使 VLA 驾驶模型能适应个体长期驾驶习惯并响应实时自然语言指令（CVPR 2026）。

研究问题： 现有端到端自动驾驶系统优化通用目标或固定驾驶模式，无法适应个体用户差异化的驾驶习惯（加速、制动、超车偏好等），缺乏个性化能力。

核心方法： 收集多驾驶员、多场景的个性化驾驶数据集，训练用户嵌入（user embedding）捕捉个体长期驾驶风格。规划时将 user embedding 作为条件注入策略，同时允许自然语言指令提供短期实时引导。在 Bench2Drive 闭环基准上评估。

技术亮点：

User Embedding：从真实驾驶数据学习个体风格表示
双时间尺度引导：长期 user embedding + 短期语言指令
闭环评估（Bench2Drive）验证个性化效果
用户研究证明行为可被识别为特定驾驶员风格

实验结果： CVPR 2026。在 Bench2Drive 闭环评测中提升风格指令适应能力，用户研究证明生成行为具有个人风格可辨识性。

应用场景： 个性化自动驾驶、用户偏好适应、人机协驾、出租车/Robotaxi 服务个性化。

研究价值： ⭐⭐⭐（3/5）— 个性化驾驶是自动驾驶商业化的重要差异化方向，方法直接，用户研究设计合理，但方法论上的创新性较为有限。

📊 今日研究趋势

2026-03-27 ArXiv AI 领域最突出的趋势是长视频生成的实用化突破与机器人世界模型的可靠性提升同步推进。视频生成侧，PackForcing 解决了长视频生成的根本工程瓶颈（KV-cache 线性增长），而 HyDRA 则将世界模型的动态主体追踪能力提升到新高度——这两项工作共同预示着视频世界模型离真正可用于仿真的阶段越来越近。机器人侧，RL 后训练被应用于稳定世界模型多步 rollout，SoftMimicGen 则将数据生成范式推进到可变形物体领域，两项工作都指向机器人学习数据基础设施的系统性完善。个性化驾驶（Vega、DMW）是另一个值得关注的新兴方向：将 VLA 与世界模型深度融合、加入用户偏好对齐，代表了端到端驾驶从"能驾驶"向"个性化驾驶"的演进。多模态生成方面，Wan-Weaver 的解耦训练策略为规避交错数据稀缺问题提供了一种有效范式。整体来看，世界模型 + 具身智能仍是当前最活跃的研究前沿。

🏆 最值得关注的 3 篇

PackForcing — 以短视频训练实现 24 倍时间外推和 2 分钟长视频生成，KV-cache 三分区压缩策略是视频生成工程化的关键突破，实用价值极高。
HyDRA / HM-World — 识别并系统解决了视频世界模型中动态主体遮挡后的记忆问题，构建首个专属基准，对世界模型研究方向有深远影响。
Persistent Robot World Models — RL 后训练稳定机器人世界模型 rollout，理论严谨、实验充分，将机器人仿真世界模型推向实用门槛。

数据来源：ArXiv 2026-03-27 | 分析生成时间：2026-03-28 06:00 (北京时间)

📄 论文精选#

PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference#

HyDRA: Out of Sight but Not Out of Mind — Hybrid Memory for Dynamic Video World Models#

Persistent Robot World Models: Stabilizing Multi-Step Rollouts via Reinforcement Learning#

LIGHT: Unleashing Guidance Without Classifiers for Human-Object Interaction Animation#

Wan-Weaver: Interleaved Multi-modal Generation via Decoupled Training#

Vega: Learning to Drive with Natural Language Instructions#

SoftMimicGen: A Data Generation System for Scalable Robot Learning in Deformable Object Manipulation#

Drive My Way: Preference Alignment of Vision-Language-Action Model for Personalized Driving#

📊 今日研究趋势#

🏆 最值得关注的 3 篇#

📄 论文精选

PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference

HyDRA: Out of Sight but Not Out of Mind — Hybrid Memory for Dynamic Video World Models

Persistent Robot World Models: Stabilizing Multi-Step Rollouts via Reinforcement Learning

LIGHT: Unleashing Guidance Without Classifiers for Human-Object Interaction Animation

Wan-Weaver: Interleaved Multi-modal Generation via Decoupled Training

Vega: Learning to Drive with Natural Language Instructions

SoftMimicGen: A Data Generation System for Scalable Robot Learning in Deformable Object Manipulation

Drive My Way: Preference Alignment of Vision-Language-Action Model for Personalized Driving

📊 今日研究趋势

🏆 最值得关注的 3 篇