ArXiv 每日精选 · 2026-06-28 | ElephantFlow's Blog

📅 本期精选来自 2026-06-28 ArXiv 最新论文，聚焦世界模型、扩散模型、视频生成、具身AI等核心方向，共 8 篇。

📄 论文精选

Hallucination in World Models is Predictable and Preventable

链接： https://arxiv.org/abs/2606.27326

一句话总结： 系统性分析了生成式世界模型中幻觉（hallucination）的成因，提出可预测、可预防的数据覆盖驱动框架，并构建了大规模 MMBench2 基准。

研究问题： 生成式世界模型在动作条件视频预测中频繁"幻觉"——画面流畅但动态偏离真实物理规律。现有方法无法预判哪些状态-动作对会触发幻觉，也缺乏高效的修复手段。

核心方法： 构建 427 小时、210 任务的 MMBench2 数据集，训练 350M 世界模型，识别出三种幻觉模式（感知幻觉、动作边缘化幻觉、场景偏离幻觉），对应流水线不同阶段。提出覆盖感知采样（Coverage-Aware Sampling）填补训练覆盖缺口，并将幻觉预测器作为好奇心奖励引导数据收集，用 50 条真实轨迹即可 fine-tune 适配全新环境。

技术亮点：

首次将世界模型幻觉归因为数据覆盖问题而非模型能力问题
提出三类幻觉预测信号，在测试前即可预判失败位置
数据高效迁移：仅需 50 条真实轨迹适配未见环境
提供完整交互式 web 版论文、代码和数据集

实验结果： MMBench2 基准上覆盖感知采样显著降低幻觉率，50 轨迹 fine-tuning 在未见环境下实现竞争性视频预测质量。

应用场景： 机器人仿真与迁移、自动驾驶世界模型评估、视频预测模型可靠性增强。

研究价值： ⭐⭐⭐⭐⭐（5/5）— 从根本上重新定义了世界模型幻觉问题的本质，提供了可落地的检测+修复闭环，对具身智能、机器人策略学习领域具有直接影响。

DanceOPD: On-Policy Generative Field Distillation

链接： https://arxiv.org/abs/2606.27377

一句话总结： 提出 on-policy 生成场蒸馏框架，将 text-to-image、局部编辑、全局编辑等多种能力统一组合到单一 flow-matching 模型中，无需能力冲突的多任务妥协。

研究问题： 现代图像生成模型需要同时支持 T2I、局部编辑和全局编辑，但这些能力天然对齐困难——编辑倾向于损害 T2I 质量，全局编辑与局部编辑相互干扰。

核心方法： DanceOPD 将每种能力定义为 flow 状态空间上的速度场（velocity field），student 模型在自身 rollout 的状态上向各 expert 能力场查询，以简单的 velocity MSE 目标训练。每个样本路由到一个能力场，查询一个低噪声 student-induced 状态，天然吸收了 Classifier-Free Guidance 等算子定义场。

技术亮点：

将多能力组合转化为 on-policy 场蒸馏问题，避免 off-policy 分布漂移
无需额外数据标注，直接从各 expert 模型蒸馏
统一框架自然兼容 CFG 等推理技巧
包含 39 页详细技术报告及对比实验

实验结果： T2I、编辑、真实感场吸收、CFG 吸收等全面实验验证，多能力组合优于基线，在目标能力增强的同时保留 anchor 生成质量。

应用场景： 统一图像生成+编辑模型、多任务生成模型训练、flow-matching 模型能力扩展。

研究价值： ⭐⭐⭐⭐⭐（5/5）— 为 flow-matching 生成模型的多能力统一提供了理论清晰、实践有效的新范式，技术深度与创新性均属顶级。

Don’t Settle at the Mode! Mitigating Diversity Collapse in Pretrained Flow Models via Feature Self-Guidance

链接： https://arxiv.org/abs/2606.27371

一句话总结： 提出 training-free 特征自引导机制，通过分散内部特征并流形正则化，在不引入外部奖励模型的情况下有效缓解 flow 模型批量生成时的多样性崩溃。

研究问题： SOTA flow 模型在相同条件下生成多个样本时存在多样性崩溃（diversity collapse）——现有方法要么靠 latent guidance 效果有限，要么依赖外部奖励模型带来显著推理开销。

核心方法： 批量生成时，将 flow 模型内部特征散开（feature self-guidance）以增强多样性；同时引入流形正则化步骤，将分散后的特征投影回数据流形，保证多样性的同时维持与输入条件的对齐。整个机制作为即插即用模块无需重训练。

技术亮点：

Training-free：直接作用于预训练 flow 模型推理阶段
双重机制：特征分散（多样性）+ 流形投影（质量保持）
适用于多步 T2I、few-step T2I、depth-to-image、参考图像生成
ECCV 2026 录用，代码已开源

实验结果： 在多种条件生成任务上显著提升多样性指标，保持高保真度，仅增加边际推理开销。

应用场景： 文本到图像批量生成、参考图像风格化、条件图像合成质量提升。

研究价值： ⭐⭐⭐⭐（4/5）— 以极低成本解决了流模型的实际部署痛点，方法简洁、即插即用，实用价值高。

Not All Actions Are Equal: Rethinking Conditioning for Dexterous World Model (DexAC-WM)

链接： https://arxiv.org/abs/2606.27325

一句话总结： 提出 DexAC-WM，将高自由度（high-DoF）灵巧操作动作视为结构化异质信号，通过动作 tokenization 与局部-全局调制提升视频预测中的动作保真度。

研究问题： 现有动作条件世界模型将完整动作序列压缩为单一表示，适用于低 DoF 控制，但高 DoF 灵巧操作（如机器人手部）动作跨越多个量级，均匀聚合导致细粒度效果建模失败。

核心方法： DexAC（动作条件化结构化处理）通过动作 tokenization 保留维度级语义，利用局部细化与全局调制对齐动作信号与视觉动态；引入语义分支提供物体-场景先验，支持高 DoF 动作条件视频预测。

技术亮点：

首次将高 DoF 动作的维度异质性问题系统化形式化
动作 tokenization + 局部-全局双路调制架构
语义分支提供 object-level 先验，弥补现有世界模型语义缺失
在 EgoDex 和 EgoVerse 数据集上验证，可扩展到其他骨干网络

实验结果： 在 EgoDex 和 EgoVerse 上 FID、FVD、PCK 全面提升，视觉时序真实性与动作跟随一致性均优于基线。

应用场景： 灵巧手操作仿真、以自我为中心的视频预测、机器人操作数据增强。

研究价值： ⭐⭐⭐⭐（4/5）— 直击高 DoF 具身智能世界模型的核心痛点，方法具有明确的物理动机，具有较强的研究跟进价值。

Self-Evolving Unified Multimodal Understanding and Generation via Self-Consistency Rewards

链接： https://arxiv.org/abs/2606.27376

一句话总结： 提出自进化训练框架，仅用无标签图像和内部一致性信号，同时提升统一多模态模型的视觉理解和图像生成能力，无需人工标注或外部奖励模型。

研究问题： 统一大多模态模型（LMM）支持理解与生成，但 post-training 仍依赖人工标注或外部奖励模型。能否完全基于未标注图像自我进化？

核心方法： 三角色框架：Proposer 生成视觉问题，Solver 作答并评估，Generator 合成图像。引入 Solver Token Entropy（STE）作为持续难度信号；生成侧设计多尺度内部评估（问答保真度评分 + 循环一致性 caption），通过 solver 媒介耦合理解与生成改进。框架适配 BLIP3o、BAGEL、VARGPT-v1.1 等多种架构。

技术亮点：

完全无标注、无外部奖励模型的自进化
STE 难度信号解决一致性失效时的优化不稳定问题
同一框架跨扩散、rectified-flow、自回归三种架构
BAGEL 上 MMMU +3.5% absolute，GenEval 82%→85%

实验结果： 8项理解指标一致提升，图像生成质量同步提高，代码和模型已开源。

应用场景： 统一多模态模型持续学习、低资源多模态训练、生成-理解协同提升。

研究价值： ⭐⭐⭐⭐（4/5）— 自进化范式的扩展性强，跨架构验证有说服力，为无标注多模态训练提供了可行路径。

LISA: Likelihood Score Alignment for Visual-condition Controllable Generation

链接： https://arxiv.org/abs/2606.27192

一句话总结： 从 score-based 生成建模视角重新解析"主干+侧网络"控制生成框架，提出 LISA 正则化方法显式对齐似然分数，加速收敛并提升最终生成质量，推理零额外开销。

研究问题： 双分支控制生成范式（冻结主干 + 可训练侧网络）广泛成功，但侧支的作用及训练效率未被充分理解，缺乏明确的理论指导。

核心方法： 将主干定义为提供先验无条件分数，侧网络隐式贡献似然分数。LISA 在侧网络指定层 hook 特征，通过轻量解码器投影到分数潜空间，构建近似似然分数目标，计算特征与目标的距离作为额外正则损失，与标准扩散 loss 联合优化。

技术亮点：

首次从 score-based 视角 系统解读双分支控制生成
正则化目标明确、轻量（解码器参数极少）
推理阶段零额外开销
覆盖图像/视频任务、多种架构、扩散/flow 模型

实验结果： 在多种图像/视频条件生成任务上一致加速收敛、提升最终效果，侧网络特征解耦性增强。

应用场景： ControlNet 类控制生成训练优化、视频条件生成、姿态/深度/边缘图到图像生成。

研究价值： ⭐⭐⭐⭐（4/5）— 理论解释简洁有力，方法实用性极强，对使用双分支控制范式的从业者有直接价值。

PhysRAG: Enhancing Physics-Awareness in Video Generation via Retrieval-Augmented Generation

链接： https://arxiv.org/abs/2606.26916

一句话总结： 提出 PhysRAG 管线，通过检索增强生成（RAG）向视频扩散模型注入物理知识，提升生成视频在热力学、力学、光学等物理规律上的合规性。

研究问题： 视频生成模型难以捕捉多样物理现象（热力学、力学、光学），根本原因在于高质量物理视频数据稀缺，以及模型缺乏结构化物理知识输入。

核心方法： 两阶段数据过滤管线从 WISA-80K 提炼 7K 高质量物理视频；构建物理视频数据库，通过可学习 query 将物理知识注入视频扩散模型。RAG 机制提供上下文物理先验，指导生成过程遵循物理规律。

技术亮点：

RAG 框架迁移到视频生成的创新路径
两阶段严格数据过滤保证物理内容质量
可学习 query 作为物理知识接口，轻量且灵活
ECCV 2026 录用，代码/数据/模型开源

实验结果： 在 PhyGenBench 和 VBench 上达到 SOTA，视觉质量与物理规律合规性双优。

应用场景： 物理仿真视频生成、科教内容创作、具身智能训练数据生成、世界模型物理增强。

研究价值： ⭐⭐⭐⭐（4/5）— RAG 与视频生成的结合路径新颖，物理感知是视频世界模型的关键缺口，时机与方向均正确。

TMP: Tree-structured Mixed-policy Pruning for Large-scale Image Generation and Editing

链接： https://arxiv.org/abs/2606.27089

一句话总结： 提出 TMP 剪枝框架，将 HunyuanImage-3.0（80B MoE+DiT）压缩至 20B，在单张 24GB 4090 上可推理，同时保留较高生成质量。

研究问题： 现代大规模图像生成模型（MoE+DiT 架构）参数量暴增至数十甚至百亿，推理资源需求极高。如何在保持质量的前提下大幅压缩？

核心方法： TMP 为首个同时支持 T2I 和 TI2I、兼容 MoE 与 DiT 架构的树形混合策略剪枝框架。可叠加在步骤蒸馏模型上作为最终压缩阶段，支持 75% 参数缩减（80B→20B）。

技术亮点：

首个覆盖 T2I + TI2I + MoE + DiT 的统一剪枝框架
80B→20B（75%缩减）可在单 24GB 4090 上推理
同时验证 Z-Image turbo 6B→4B（33%缩减）可推理
权重已集成至 HunyuanImage3.0 开源仓库

实验结果： HunyuanImage-3.0 20B 版本在单 24GB GPU 上可运行，生成质量损失有限；Z-Image turbo 4B 版本质量几乎无降级。

应用场景： 消费级 GPU 大模型图像生成部署、边缘设备生成模型、模型压缩研究。

研究价值： ⭐⭐⭐（3/5）— 工程实践价值显著，让超大规模生成模型惠及更广泛用户，但方法创新性相对有限，属于应用贡献。

📊 今日研究趋势

2026-06-28 ArXiv 活跃方向呈现几个明显趋势：世界模型可靠性成为新焦点，不再满足于生成真实感，开始系统化研究幻觉成因与控制机制；Flow-matching 生成范式持续深化，从多能力组合、多样性增强到控制训练优化全面推进；统一多模态模型方向出现自进化与自监督突破，摆脱对标注数据的依赖；具身智能-世界模型的交汇持续加深，高 DoF 操作建模成为新兴课题。此外，大模型压缩走向工程落地，RAG 框架在视频物理感知上展现出应用潜力。整体来看，生成式 AI 的研究重心正从"能生成"转向"生成得准确、可控、高效"。

🏆 最值得关注的 3 篇

Hallucination in World Models is Predictable and Preventable — 系统性重新定义世界模型幻觉为数据覆盖问题，提出可预测+可预防的完整闭环框架，对机器人和具身智能领域具有直接落地价值。
DanceOPD: On-Policy Generative Field Distillation — 为 flow-matching 模型多能力统一提供理论清晰的新范式，on-policy 蒸馏设计优雅，技术深度与创新性均达顶级水准。
DexAC-WM: Not All Actions Are Equal — 直击高 DoF 世界模型的核心痛点，动作异质性建模思路清晰，具有较强的跟进研究价值和工程实践意义。

数据来源：ArXiv 2026-06-28 | 分析生成时间：2026-06-29 06:00 (北京时间)

📄 论文精选#

Hallucination in World Models is Predictable and Preventable#

DanceOPD: On-Policy Generative Field Distillation#

Don’t Settle at the Mode! Mitigating Diversity Collapse in Pretrained Flow Models via Feature Self-Guidance#

Not All Actions Are Equal: Rethinking Conditioning for Dexterous World Model (DexAC-WM)#

Self-Evolving Unified Multimodal Understanding and Generation via Self-Consistency Rewards#

LISA: Likelihood Score Alignment for Visual-condition Controllable Generation#

PhysRAG: Enhancing Physics-Awareness in Video Generation via Retrieval-Augmented Generation#

TMP: Tree-structured Mixed-policy Pruning for Large-scale Image Generation and Editing#

📊 今日研究趋势#

🏆 最值得关注的 3 篇#

📄 论文精选

Hallucination in World Models is Predictable and Preventable

DanceOPD: On-Policy Generative Field Distillation

Don’t Settle at the Mode! Mitigating Diversity Collapse in Pretrained Flow Models via Feature Self-Guidance

Not All Actions Are Equal: Rethinking Conditioning for Dexterous World Model (DexAC-WM)

Self-Evolving Unified Multimodal Understanding and Generation via Self-Consistency Rewards

LISA: Likelihood Score Alignment for Visual-condition Controllable Generation

PhysRAG: Enhancing Physics-Awareness in Video Generation via Retrieval-Augmented Generation

TMP: Tree-structured Mixed-policy Pruning for Large-scale Image Generation and Editing

📊 今日研究趋势

🏆 最值得关注的 3 篇