📅 本期精选来自 2026-06-28 ArXiv 最新论文,聚焦世界模型、扩散模型、视频生成、具身AI等核心方向,共 8 篇。


📄 论文精选

Hallucination in World Models is Predictable and Preventable

链接: https://arxiv.org/abs/2606.27326

一句话总结: 系统性分析了生成式世界模型中幻觉(hallucination)的成因,提出可预测、可预防的数据覆盖驱动框架,并构建了大规模 MMBench2 基准。

研究问题: 生成式世界模型在动作条件视频预测中频繁"幻觉"——画面流畅但动态偏离真实物理规律。现有方法无法预判哪些状态-动作对会触发幻觉,也缺乏高效的修复手段。

核心方法: 构建 427 小时、210 任务的 MMBench2 数据集,训练 350M 世界模型,识别出三种幻觉模式(感知幻觉、动作边缘化幻觉、场景偏离幻觉),对应流水线不同阶段。提出覆盖感知采样(Coverage-Aware Sampling)填补训练覆盖缺口,并将幻觉预测器作为好奇心奖励引导数据收集,用 50 条真实轨迹即可 fine-tune 适配全新环境。

技术亮点:

  • 首次将世界模型幻觉归因为数据覆盖问题而非模型能力问题
  • 提出三类幻觉预测信号,在测试前即可预判失败位置
  • 数据高效迁移:仅需 50 条真实轨迹适配未见环境
  • 提供完整交互式 web 版论文、代码和数据集

实验结果: MMBench2 基准上覆盖感知采样显著降低幻觉率,50 轨迹 fine-tuning 在未见环境下实现竞争性视频预测质量。

应用场景: 机器人仿真与迁移、自动驾驶世界模型评估、视频预测模型可靠性增强。

研究价值: ⭐⭐⭐⭐⭐(5/5)— 从根本上重新定义了世界模型幻觉问题的本质,提供了可落地的检测+修复闭环,对具身智能、机器人策略学习领域具有直接影响。


DanceOPD: On-Policy Generative Field Distillation

链接: https://arxiv.org/abs/2606.27377

一句话总结: 提出 on-policy 生成场蒸馏框架,将 text-to-image、局部编辑、全局编辑等多种能力统一组合到单一 flow-matching 模型中,无需能力冲突的多任务妥协。

研究问题: 现代图像生成模型需要同时支持 T2I、局部编辑和全局编辑,但这些能力天然对齐困难——编辑倾向于损害 T2I 质量,全局编辑与局部编辑相互干扰。

核心方法: DanceOPD 将每种能力定义为 flow 状态空间上的速度场(velocity field),student 模型在自身 rollout 的状态上向各 expert 能力场查询,以简单的 velocity MSE 目标训练。每个样本路由到一个能力场,查询一个低噪声 student-induced 状态,天然吸收了 Classifier-Free Guidance 等算子定义场。

技术亮点:

  • 将多能力组合转化为 on-policy 场蒸馏问题,避免 off-policy 分布漂移
  • 无需额外数据标注,直接从各 expert 模型蒸馏
  • 统一框架自然兼容 CFG 等推理技巧
  • 包含 39 页详细技术报告及对比实验

实验结果: T2I、编辑、真实感场吸收、CFG 吸收等全面实验验证,多能力组合优于基线,在目标能力增强的同时保留 anchor 生成质量。

应用场景: 统一图像生成+编辑模型、多任务生成模型训练、flow-matching 模型能力扩展。

研究价值: ⭐⭐⭐⭐⭐(5/5)— 为 flow-matching 生成模型的多能力统一提供了理论清晰、实践有效的新范式,技术深度与创新性均属顶级。


Don’t Settle at the Mode! Mitigating Diversity Collapse in Pretrained Flow Models via Feature Self-Guidance

链接: https://arxiv.org/abs/2606.27371

一句话总结: 提出 training-free 特征自引导机制,通过分散内部特征并流形正则化,在不引入外部奖励模型的情况下有效缓解 flow 模型批量生成时的多样性崩溃。

研究问题: SOTA flow 模型在相同条件下生成多个样本时存在多样性崩溃(diversity collapse)——现有方法要么靠 latent guidance 效果有限,要么依赖外部奖励模型带来显著推理开销。

核心方法: 批量生成时,将 flow 模型内部特征散开(feature self-guidance)以增强多样性;同时引入流形正则化步骤,将分散后的特征投影回数据流形,保证多样性的同时维持与输入条件的对齐。整个机制作为即插即用模块无需重训练。

技术亮点:

  • Training-free:直接作用于预训练 flow 模型推理阶段
  • 双重机制:特征分散(多样性)+ 流形投影(质量保持)
  • 适用于多步 T2I、few-step T2I、depth-to-image、参考图像生成
  • ECCV 2026 录用,代码已开源

实验结果: 在多种条件生成任务上显著提升多样性指标,保持高保真度,仅增加边际推理开销。

应用场景: 文本到图像批量生成、参考图像风格化、条件图像合成质量提升。

研究价值: ⭐⭐⭐⭐(4/5)— 以极低成本解决了流模型的实际部署痛点,方法简洁、即插即用,实用价值高。


Not All Actions Are Equal: Rethinking Conditioning for Dexterous World Model (DexAC-WM)

链接: https://arxiv.org/abs/2606.27325

一句话总结: 提出 DexAC-WM,将高自由度(high-DoF)灵巧操作动作视为结构化异质信号,通过动作 tokenization 与局部-全局调制提升视频预测中的动作保真度。

研究问题: 现有动作条件世界模型将完整动作序列压缩为单一表示,适用于低 DoF 控制,但高 DoF 灵巧操作(如机器人手部)动作跨越多个量级,均匀聚合导致细粒度效果建模失败。

核心方法: DexAC(动作条件化结构化处理)通过动作 tokenization 保留维度级语义,利用局部细化与全局调制对齐动作信号与视觉动态;引入语义分支提供物体-场景先验,支持高 DoF 动作条件视频预测。

技术亮点:

  • 首次将高 DoF 动作的维度异质性问题系统化形式化
  • 动作 tokenization + 局部-全局双路调制架构
  • 语义分支提供 object-level 先验,弥补现有世界模型语义缺失
  • 在 EgoDex 和 EgoVerse 数据集上验证,可扩展到其他骨干网络

实验结果: 在 EgoDex 和 EgoVerse 上 FID、FVD、PCK 全面提升,视觉时序真实性与动作跟随一致性均优于基线。

应用场景: 灵巧手操作仿真、以自我为中心的视频预测、机器人操作数据增强。

研究价值: ⭐⭐⭐⭐(4/5)— 直击高 DoF 具身智能世界模型的核心痛点,方法具有明确的物理动机,具有较强的研究跟进价值。


Self-Evolving Unified Multimodal Understanding and Generation via Self-Consistency Rewards

链接: https://arxiv.org/abs/2606.27376

一句话总结: 提出自进化训练框架,仅用无标签图像和内部一致性信号,同时提升统一多模态模型的视觉理解和图像生成能力,无需人工标注或外部奖励模型。

研究问题: 统一大多模态模型(LMM)支持理解与生成,但 post-training 仍依赖人工标注或外部奖励模型。能否完全基于未标注图像自我进化?

核心方法: 三角色框架:Proposer 生成视觉问题,Solver 作答并评估,Generator 合成图像。引入 Solver Token Entropy(STE)作为持续难度信号;生成侧设计多尺度内部评估(问答保真度评分 + 循环一致性 caption),通过 solver 媒介耦合理解与生成改进。框架适配 BLIP3o、BAGEL、VARGPT-v1.1 等多种架构。

技术亮点:

  • 完全无标注、无外部奖励模型的自进化
  • STE 难度信号解决一致性失效时的优化不稳定问题
  • 同一框架跨扩散、rectified-flow、自回归三种架构
  • BAGEL 上 MMMU +3.5% absolute,GenEval 82%→85%

实验结果: 8项理解指标一致提升,图像生成质量同步提高,代码和模型已开源。

应用场景: 统一多模态模型持续学习、低资源多模态训练、生成-理解协同提升。

研究价值: ⭐⭐⭐⭐(4/5)— 自进化范式的扩展性强,跨架构验证有说服力,为无标注多模态训练提供了可行路径。


LISA: Likelihood Score Alignment for Visual-condition Controllable Generation

链接: https://arxiv.org/abs/2606.27192

一句话总结: 从 score-based 生成建模视角重新解析"主干+侧网络"控制生成框架,提出 LISA 正则化方法显式对齐似然分数,加速收敛并提升最终生成质量,推理零额外开销。

研究问题: 双分支控制生成范式(冻结主干 + 可训练侧网络)广泛成功,但侧支的作用及训练效率未被充分理解,缺乏明确的理论指导。

核心方法: 将主干定义为提供先验无条件分数,侧网络隐式贡献似然分数。LISA 在侧网络指定层 hook 特征,通过轻量解码器投影到分数潜空间,构建近似似然分数目标,计算特征与目标的距离作为额外正则损失,与标准扩散 loss 联合优化。

技术亮点:

  • 首次从 score-based 视角 系统解读双分支控制生成
  • 正则化目标明确、轻量(解码器参数极少)
  • 推理阶段零额外开销
  • 覆盖图像/视频任务、多种架构、扩散/flow 模型

实验结果: 在多种图像/视频条件生成任务上一致加速收敛、提升最终效果,侧网络特征解耦性增强。

应用场景: ControlNet 类控制生成训练优化、视频条件生成、姿态/深度/边缘图到图像生成。

研究价值: ⭐⭐⭐⭐(4/5)— 理论解释简洁有力,方法实用性极强,对使用双分支控制范式的从业者有直接价值。


PhysRAG: Enhancing Physics-Awareness in Video Generation via Retrieval-Augmented Generation

链接: https://arxiv.org/abs/2606.26916

一句话总结: 提出 PhysRAG 管线,通过检索增强生成(RAG)向视频扩散模型注入物理知识,提升生成视频在热力学、力学、光学等物理规律上的合规性。

研究问题: 视频生成模型难以捕捉多样物理现象(热力学、力学、光学),根本原因在于高质量物理视频数据稀缺,以及模型缺乏结构化物理知识输入。

核心方法: 两阶段数据过滤管线从 WISA-80K 提炼 7K 高质量物理视频;构建物理视频数据库,通过可学习 query 将物理知识注入视频扩散模型。RAG 机制提供上下文物理先验,指导生成过程遵循物理规律。

技术亮点:

  • RAG 框架迁移到视频生成的创新路径
  • 两阶段严格数据过滤保证物理内容质量
  • 可学习 query 作为物理知识接口,轻量且灵活
  • ECCV 2026 录用,代码/数据/模型开源

实验结果: 在 PhyGenBench 和 VBench 上达到 SOTA,视觉质量与物理规律合规性双优。

应用场景: 物理仿真视频生成、科教内容创作、具身智能训练数据生成、世界模型物理增强。

研究价值: ⭐⭐⭐⭐(4/5)— RAG 与视频生成的结合路径新颖,物理感知是视频世界模型的关键缺口,时机与方向均正确。


TMP: Tree-structured Mixed-policy Pruning for Large-scale Image Generation and Editing

链接: https://arxiv.org/abs/2606.27089

一句话总结: 提出 TMP 剪枝框架,将 HunyuanImage-3.0(80B MoE+DiT)压缩至 20B,在单张 24GB 4090 上可推理,同时保留较高生成质量。

研究问题: 现代大规模图像生成模型(MoE+DiT 架构)参数量暴增至数十甚至百亿,推理资源需求极高。如何在保持质量的前提下大幅压缩?

核心方法: TMP 为首个同时支持 T2I 和 TI2I、兼容 MoE 与 DiT 架构的树形混合策略剪枝框架。可叠加在步骤蒸馏模型上作为最终压缩阶段,支持 75% 参数缩减(80B→20B)。

技术亮点:

  • 首个覆盖 T2I + TI2I + MoE + DiT 的统一剪枝框架
  • 80B→20B(75%缩减)可在单 24GB 4090 上推理
  • 同时验证 Z-Image turbo 6B→4B(33%缩减)可推理
  • 权重已集成至 HunyuanImage3.0 开源仓库

实验结果: HunyuanImage-3.0 20B 版本在单 24GB GPU 上可运行,生成质量损失有限;Z-Image turbo 4B 版本质量几乎无降级。

应用场景: 消费级 GPU 大模型图像生成部署、边缘设备生成模型、模型压缩研究。

研究价值: ⭐⭐⭐(3/5)— 工程实践价值显著,让超大规模生成模型惠及更广泛用户,但方法创新性相对有限,属于应用贡献。


📊 今日研究趋势

2026-06-28 ArXiv 活跃方向呈现几个明显趋势:世界模型可靠性成为新焦点,不再满足于生成真实感,开始系统化研究幻觉成因与控制机制;Flow-matching 生成范式持续深化,从多能力组合、多样性增强到控制训练优化全面推进;统一多模态模型方向出现自进化与自监督突破,摆脱对标注数据的依赖;具身智能-世界模型的交汇持续加深,高 DoF 操作建模成为新兴课题。此外,大模型压缩走向工程落地,RAG 框架在视频物理感知上展现出应用潜力。整体来看,生成式 AI 的研究重心正从"能生成"转向"生成得准确、可控、高效"。


🏆 最值得关注的 3 篇

  1. Hallucination in World Models is Predictable and Preventable — 系统性重新定义世界模型幻觉为数据覆盖问题,提出可预测+可预防的完整闭环框架,对机器人和具身智能领域具有直接落地价值。

  2. DanceOPD: On-Policy Generative Field Distillation — 为 flow-matching 模型多能力统一提供理论清晰的新范式,on-policy 蒸馏设计优雅,技术深度与创新性均达顶级水准。

  3. DexAC-WM: Not All Actions Are Equal — 直击高 DoF 世界模型的核心痛点,动作异质性建模思路清晰,具有较强的跟进研究价值和工程实践意义。


数据来源:ArXiv 2026-06-28 | 分析生成时间:2026-06-29 06:00 (北京时间)