📅 本期精选来自 2026-06-23 ArXiv 最新论文,聚焦扩散模型、视频生成、动作生成、具身AI等核心方向,共 7 篇。


📄 论文精选

LaST-HD: Learning Latent Physical Reasoning from Scalable Human Data for Robot Manipulation

链接: https://arxiv.org/abs/2606.23685

一句话总结: 提出了一种基于世界模型的人-机器人动作对齐框架,通过在共享隐空间中建立前向动力学一致性,使机器人能够从人类手部演示数据中高效学习物理操作技能。

研究问题: 人类手部演示数据丰富易得,但从人类到机器人的动作迁移不仅需要运动学对齐,还需要跨异构形态的物理动力学对齐——仅靠运动学重定向无法解决底层的力学差异。

核心方法: 提出 LaST-HD,在 “先推理再行动”(reasoning-before-acting)VLA 框架基础上扩展:训练一个辅助的动作条件世界模型(action-conditioned world model),分别在未配对的人类手部轨迹和机器人轨迹上建模前向动力学,生成统一的隐空间目标;跨形态表示对齐后,这些目标监督 LaST-HD 的隐空间推理过程,使模型内化共享物理动力学。同时自研低成本运动捕捉手套 OOL Glove 采集高质量手部数据,并设计"混合协同训练 → 人类手部在线修正"两阶段训练配方。

技术亮点:

  • 世界模型作为跨形态表示对齐的桥梁,无需配对人类-机器人数据
  • 仅需 20 分钟 OOL 手套数据即可在线修正适应新环境,数据效率极高
  • 混合协同训练提升对新物体、新场景、新位置的泛化能力
  • 前向动力学共享空间解耦运动学差异与物理动力学差异

实验结果: 在线修正后跨环境操作准确率超过 90%;混合训练阶段对新物体/场景/位置泛化显著提升。

应用场景: 人形机器人操作、跨形态技能迁移、低成本机器人数据采集。

研究价值: ⭐⭐⭐⭐⭐(5/5)— 将世界模型用于解决跨形态物理动力学对齐问题,思路新颖且有实用价值,20分钟数据即可在线适应的结论极具工程意义。


CoorDex: Coordinating Body and Hand Priors for Continuous Dexterous Humanoid Loco-Manipulation

链接: https://arxiv.org/abs/2606.23680

一句话总结: 提出将高维身体与灵巧手控制压缩为协调隐残差控制的学习管线,首次实现人形机器人在行进中持续执行高自由度灵巧操作。

研究问题: 人形机器人灵巧操控通常退化为"走-停-抓"的分段流程,且依赖低自由度末端执行器。如何在运动中实现高自由度(20-DoF)灵巧抓取,是长期未解决的挑战。

核心方法: CoorDex 学习管线分三步:(1) 在仿真中训练基于特权信息的全身与手部运动追踪教师策略;(2) 将其蒸馏为本体感知条件的隐先验;(3) 用冻结的隐先验作为下游残差 RL 的动作空间。最终的协调隐残差策略通过共享任务上下文和独立的身体-手部残差头来组合两个先验,在保持自然全身运动的同时提升手指级接触可靠性。

技术亮点:

  • 隐先验接口将高维控制分解为可学习的低维残差问题
  • 协调残差结构(共享上下文 + 独立残差头)使身体-手部协同可训练
  • 在同等奖励预算下,关节空间 PPO 和单一隐先验方案均失败,验证了架构必要性
  • 在 Unitree G1 + 20-DoF WUJI 手上实现边走边抓瓶子、行进中开冰箱等任务

实验结果: 消融研究表明,关节空间 PPO、关节空间手部控制、单一隐预测均无法完成行走-抓取-携带任务;KITTI 基准上 MOTA 达 92.27%(基于相关方法)。

应用场景: 人形机器人全身操控、工厂/家庭服务机器人、动态环境下的灵巧抓取。

研究价值: ⭐⭐⭐⭐⭐(5/5)— 突破人形机器人"行进中灵巧操控"这一关键障碍,隐先验接口 + 协调残差的框架设计思路对整个具身AI领域具有参考价值。


Vera: A Layered Diffusion Model for Content-Preserving Video Editing

链接: https://arxiv.org/abs/2606.23610

一句话总结: 提出基于分层扩散的视频编辑框架,生成编辑层与 alpha 遮罩进行合成,从架构层面将创意编辑与内容保留解耦。

研究问题: 现有视频扩散模型在编辑时重新生成所有像素,导致不应改变的角色、背景等元素被无意篡改,内容保留是视频编辑的核心难题。

核心方法: Vera 采用分层扩散框架:不直接修改原视频像素,而是生成编辑层(edit layer)和对应的 alpha 遮罩,再与源视频合成。为促进与源视频的一致合成,将 text-to-video DiT 扩展为 Mixture-of-Transformers(MoT)架构,各层独立 DiT 通过联合自注意力机制交互。同时构建包含精确 alpha 遮罩、多样场景动态和视觉特效的高质量分层数据集(486K 帧)。

技术亮点:

  • 编辑层 + alpha 合成的架构设计,在结构上保证内容保留
  • MoT(Mixture-of-Transformers)架构实现各层独立建模与跨层交互
  • 专门构建的分层训练数据集,alpha 遮罩精准、场景多样
  • 仅 486K 帧分层训练数据,相比原视频规模极小

实验结果: 在定量基准和人类偏好研究中,Vera 在内容保留上优于主流开源视频编辑模型,编辑质量保持竞争力。

应用场景: 视频内容编辑、视觉特效合成、创意视频生成。

研究价值: ⭐⭐⭐⭐(4/5)— 分层扩散框架解决了视频编辑的结构性难题,MoT 架构值得关注,数据构建方案有实用价值。


BoxCtrl: 3D-Aware Visual Prompting for Geometric Image Editing

链接: https://arxiv.org/abs/2606.23270

一句话总结: 提出用 RGB 三维包围框作为视觉提示的 3D 感知图像编辑框架,通过 SFT+RL 两阶段训练在平移、旋转、缩放等几何编辑任务上达到 SOTA,并被 SIGGRAPH 2026 收录。

研究问题: 现有指令驱动或 2D 引导的图像编辑方法无法精确控制 3D 空间中的几何变换(平移、缩放、旋转),几何编辑的精确性和一致性是核心挑战。

核心方法: 引入 BoxCtrl,将 3D 包围框(hull、avoidance、touch 区域)投影到 2D 图像上作为视觉提示:三个正交面涂以不同 RGB 颜色,同时编码位置、尺寸、方向,形成紧凑直观的 in-context 视觉示例。关键设计是包围框将几何控制与外观控制解耦;采用 SFT+RL 两阶段训练:先用大规模合成数据集 SFT 赋予基础编辑能力,再用在线 RL 结合真实世界未配对数据弥合合成-真实差距,奖励函数同时评估几何精度与视觉保真度。

技术亮点:

  • RGB 三色包围框同时编码 3D 位置/尺寸/方向,信息密度高
  • 几何控制与外观控制显式解耦
  • SFT+RL 组合解决合成数据的域迁移问题
  • SIGGRAPH 2026 收录,质量背书

实验结果: 在平移、旋转、缩放及复合编辑任务上达到 SOTA 性能。

应用场景: 图像创意编辑、3D 场景重排、AR/VR 内容制作。

研究价值: ⭐⭐⭐⭐(4/5)— 被 SIGGRAPH 2026 收录,3D 包围框作为视觉提示的设计具有创新性,SFT+RL 训练策略对生成模型对齐有参考意义。


IMAGIN-4D: Image-Guided Controllable Interaction Generation

链接: https://arxiv.org/abs/2606.23675

一句话总结: 提出基于扩散的人物-物体交互(HOI)动作生成模型,通过时空分解的参考图像条件控制生成序列,解决了交互中时空欠定问题。

研究问题: 现有 HOI 生成方法从文本、物体几何和稀疏路径点生成动作,但这些信号无法完全确定交互的关键细节(抓握方式、接近方向、接触位置等),同样的 prompt 和轨迹可能产生截然不同的交互结果。

核心方法: IMAGIN-4D 使用参考图像作为交互快照的视觉规范,并进行时空分解:空间条件提取监督的交互状态 token(体姿、物姿、接触、空间关系);时间条件计算帧感知 token,允许序列不同片段关注同一图像的不同视觉线索。为平衡图像、文本、路径点三种条件,采用角色感知条件设计(role-aware conditioning):文本/路径点/交互状态 token 使用独立 AdaLN 流,帧感知视觉 token 与动作 token 交叉注意力。从 FullBodyManipulation 数据集构建合成运动-图像渲染管线,并引入图像依从度指标。

技术亮点:

  • 时空分解的参考图像条件,优于单一全局图像表示
  • 角色感知条件(role-aware conditioning)平衡多模态控制信号
  • 合成运动-图像渲染管线解决 HOI 数据集缺乏配对图像的问题
  • 在 FBM 和 BEHAVE 基准上验证

实验结果: 在 FBM 和 BEHAVE 数据集上,IMAGIN-4D 在细粒度交互控制上优于单 token 和均匀图像条件基线,同时保持路径跟随和动作质量。

应用场景: 角色动画、机器人操作、AR/VR、具身AI仿真。

研究价值: ⭐⭐⭐⭐(4/5)— 时空分解条件设计解决了 HOI 生成中的关键欠定问题,对具身AI和动画领域均有价值。


Lift4D: Harmonizing Single-View 3D Estimation for 4D Reconstruction In-the-Wild

链接: https://arxiv.org/abs/2606.23688

一句话总结: 提出测试时优化框架,将时序一致的单视图 3D 预测与可变形 3D Gaussian Splatting 结合,并用扩散先验补全遮挡区域,显著提升野外单目视频的 4D 重建质量。

研究问题: 从单目视频重建动态非刚体物体需要整合直接观测的视觉线索与数据驱动的几何外观先验,但现有方法要么受限于 4D 训练数据稀缺,要么仅在初始化时使用先验,在大形变和遮挡场景下均表现欠佳。

核心方法: Lift4D 是测试时优化框架,分两步:(1) 通过因果隐变量条件(causal latent conditioning)对现有单视图 3D 重建模型进行适配,生成时序一致的逐帧预测,为可变形 3D Gaussian Splatting 提供一致初始化;(2) 通过遮挡感知优化"雕刻"该表示以匹配输入视频,可见表面细节精确恢复,未观测区域由视角条件扩散先验补全。

技术亮点:

  • 因果隐变量条件赋予单视图模型时序一致性
  • 遮挡感知优化区分可见/不可见区域,分别处理
  • 视角条件扩散先验补全遮挡区域,解决信息缺失问题
  • 可变形 3DGS 作为显式表示兼顾质量和可控性

实验结果: 在具有严重遮挡和非刚体运动的野外序列上,Lift4D 明显优于此前 4D 重建方法。

应用场景: 动态场景重建、视频 3D 理解、虚拟现实内容创作。

研究价值: ⭐⭐⭐⭐(4/5)— 将扩散先验贯穿测试时优化全程(初始化+补全),是 4D 重建方向的有效范式扩展。


VESFlow: Safe Few-Step Generation via Velocity Editing

链接: https://arxiv.org/abs/2606.23267

一句话总结: 针对 Flow Matching 少步生成场景提出无训练安全方法,直接编辑速度场引导轨迹远离不安全内容,在极少采样步数(4步)下有效移除目标概念。

研究问题: 随着 Flow Matching 成为 text-to-image 生成的主流范式,其少步采样特性使现有安全方法(依赖多步轨迹引导或 CLIP 嵌入操控)失效:步数不足以修正,且现代文本编码器降低了嵌入级干预的效果。

核心方法: VESFlow 基于 Flow Matching 学习边际速度的特性,直接通过安全条件后验编辑速度场,引导轨迹朝安全输出方向,不修改 conditioning prompt。进一步引入基于风险分数的过滤机制,对良性 prompt 跳过速度编辑以节省计算。VESFlow+ 在编辑速度朝安全方向的同时,还推离不安全方向,攻击抵抗力更强。

技术亮点:

  • 无训练方法,直接在推理时编辑速度场
  • 专为少步 Flow Matching 设计,不依赖多步轨迹
  • 风险分数过滤保持良性 prompt 生成质量
  • 在 4 步 MeanFlow 模型上测试,具有实用性

实验结果: VESFlow+ 在 Ring-A-Bell 上将攻击成功率降至 6.3%(NudeNet),在 MMA-Diffusion 上降至 6.8%,同时保持良性 prompt 生成保真度。

应用场景: Text-to-image 安全部署、生成模型内容过滤、Flow Matching 模型安全对齐。

研究价值: ⭐⭐⭐(3/5)— 解决了少步 Flow Matching 场景下安全方法的空白,无训练方案实用,但安全领域的 arms race 特性使其长期价值待观察。


📊 今日研究趋势

2026-06-23 ArXiv AI 领域主要呈现以下几个活跃方向:

扩散模型持续深化:不再局限于图像生成,向视频编辑(Vera)、4D重建(Lift4D)、动作生成(IMAGIN-4D)、安全对齐(VESFlow)等下游任务快速渗透。分层扩散、测试时优化、速度场编辑等新范式涌现,标志着扩散模型正从"生成"走向"工具化"。

具身AI迎来爆发:机器人学(cs.RO)今日有 174 篇新论文,体量庞大。人形机器人灵巧操控(CoorDex)、跨形态技能迁移(LaST-HD)、VLA 安全基准(LIBERO-Safety)集中爆发,说明具身AI已从理论走向系统工程验证阶段。

世界模型在机器人学中落地:LaST-HD 展示了用动作条件世界模型对齐跨形态物理动力学的新路径,是世界模型从"预测未来帧"扩展到"物理推理对齐"的重要信号。

多模态条件生成走向精细控制:BoxCtrl(SIGGRAPH 2026)和 IMAGIN-4D 均聚焦于将视觉/空间条件转化为精准、可解释的生成控制信号,“生成的可控性"正成为比"生成质量"更核心的研究目标。

效率与安全并重:Sparse Context(4x 推理加速)和 VESFlow(无训练安全)体现了社区在保持生成能力的前提下追求效率和合规性的趋势,生产落地导向明显。


🏆 最值得关注的 3 篇

  1. LaST-HD: Learning Latent Physical Reasoning from Scalable Human Data for Robot Manipulation — 将世界模型用于跨形态物理动力学对齐,20分钟数据在线适应的数据效率令人印象深刻,为机器人从人类演示学习提供了全新范式。

  2. CoorDex: Coordinating Body and Hand Priors for Continuous Dexterous Humanoid Loco-Manipulation — 突破人形机器人"走-停-抓"范式,实现在行进中高自由度灵巧操控,隐先验+协调残差架构值得深入研究。

  3. Vera: A Layered Diffusion Model for Content-Preserving Video Editing — 分层扩散框架从架构层面解决视频编辑内容保留难题,MoT 架构与分层数据集构建方案具有广泛借鉴价值。


数据来源:ArXiv 2026-06-23 | 分析生成时间:2026-06-24 06:00 (北京时间)