📅 本期精选来自 2026-06-18 ArXiv 最新论文,聚焦扩散模型、具身智能、VLM、机器人操作等核心方向,共 8 篇。


📄 论文精选

Diffusion-Proof: Recipe for Formal Theorem Proving Beyond Auto-Regressive Generation

链接: https://arxiv.org/abs/2606.19315

一句话总结: 首次将扩散语言模型(dLLM)应用于形式化定理证明,通过全证明生成与局部纠错双模型协同,在 MiniF2F-Test 上绝对提升 6.14%,并解决了 DeepSeek-Prover-V2-7B 未能解决的 IMO 题目。

研究问题: 自回归 LLM 在形式化定理证明中面临长程一致性差、误差累积严重的问题;扩散 LLM 在数学推理中的应用几乎空白。

核心方法: 提出 Diffusion-Proof 框架,包含两个模型:(1) dLLM-Prover-7B:以多 token 块去噪方式生成完整证明,保持长程策略一致性;(2) dLLM-Corrector-7B:利用 dLLM 的填充能力对局部证明步骤进行双向纠错。两模型协同完成从草稿生成到精修的全流程。

技术亮点:

  • 首次将扩散 LLM 引入形式化数学证明任务,打破自回归垄断
  • 利用 dLLM 天然支持 in-filling(双向信息流)的特性解决局部纠错难题
  • 多 token 块并行生成减少长证明中的误差传播

实验结果: 在 ProofNet-Test 上绝对提升 1.61%,MiniF2F-Test 上绝对提升 6.14%(相对自回归基线);成功解决一道 DeepSeek-Prover-V2-7B 无法证明的 IMO 题目,展示了 dLLM 在形式推理中的独特优势。

应用场景: 数学竞赛自动证明、形式化验证、交互式定理证明辅助工具(Lean/Coq)。

研究价值: ⭐⭐⭐⭐⭐(5/5)— 扩散模型在推理任务上的突破性尝试,开辟了 dLLM 用于结构化生成的新赛道,方法论创新显著,实验结果有说服力。


OmniAgent: Native Active Perception as Reasoning for Omni-Modal Understanding

链接: https://arxiv.org/abs/2606.19341

一句话总结: 首个原生全模态主动感知 Agent,将视频理解建模为 POMDP 迭代推理循环,7B 参数在 LVBench 上超越 72B 的 Qwen2.5-VL(50.5% vs 47.3%),已接收于 ICML 2026。

研究问题: 长视频理解中"全量处理"范式导致计算代价随视频时长线性增长,已有交互式框架仍依赖全局预扫描;需要将推理复杂度与视频原始时长解耦。

核心方法: OmniAgent 将视频理解建模为 POMDP 的 Observation-Thought-Action 迭代循环:按需执行动作、选择性蒸馏音视频线索至持久化文本记忆。训练分两阶段:(1) Agentic SFT(基于 best-of-N 轨迹合成与双阶段质量控制的主动感知引导);(2) Agentic RL(TAURA:Turn-aware Adaptive Uncertainty Rescaled Advantage,利用轮次级熵引导信用分配至关键发现轮次)。

技术亮点:

  • POMDP 建模将推理复杂度与视频时长解耦,实现 test-time scaling(更多推理轮次 → 更高性能)
  • TAURA 方法利用轮次熵动态调整 RL 信用分配,聚焦关键决策时刻
  • 主动感知避免全局预扫描,计算效率大幅提升

实验结果: 在 VideoMME、LVBench 等 10 个 Benchmark 上达到开源 SOTA;7B 模型在 LVBench 上以 50.5% 超过 Qwen2.5-VL-72B 的 47.3%,展示强烈的参数效率优势。

应用场景: 长视频问答、视频检索、多模态 Agent、视频监控分析。

研究价值: ⭐⭐⭐⭐⭐(5/5)— ICML 2026 接收,7B 胜 72B 的结果有力证明主动感知范式的有效性,方法创新度高,影响力强。


DO AS I DO: Dexterous Manipulation Data from Everyday Human Videos

链接: https://arxiv.org/abs/2606.19333

一句话总结: 从普通单目 RGB 人类视频中重建并迁移灵巧操作轨迹到多指机器人手,解决机器人操作数据稀缺问题,在手-物交互估计和轨迹提取上超越现有 SOTA。

研究问题: 灵巧机器人手的操作数据采集成本极高,如何从大量现成的人类视频中自动提取可执行的机器人操作数据?

核心方法: DO AS I DO 算法:(1) 从自我视角(egocentric)和外部视角(exocentric)野外视频中重建手-物交互;(2) 将手-物交互估计结果重定向(retarget)到多指灵巧机器人手的可执行动作序列;(3) 提出 efficacy playbook 指导从业者收集人类操作数据。

技术亮点:

  • 仅用 RGB 视频(无深度传感器)实现手-物 6DoF 交互重建
  • 跨体态迁移(human-to-robot embodiment gap)的系统性解决方案
  • 数据来源无限(互联网视频),大幅降低数据获取成本

实验结果: 在多个具有 ground truth 的数据集上超越现有 SOTA;成功从在线视频片段中提取可用操作轨迹。

应用场景: 灵巧操作机器人训练数据生成、从网络视频学习操作技能、人机协作。

研究价值: ⭐⭐⭐⭐(4/5)— 解决了机器人学习中的核心数据瓶颈,数据获取方案极具扩展性,对具身智能领域有重要实践意义。


Act2Answer: Does VLA Even Know the Basics? Measuring Commonsense and World Knowledge Retention in Vision-Language-Action Models

链接: https://arxiv.org/abs/2606.19297

一句话总结: 提出 Act2Answer 协议,通过动作接地方式评估 VLA 模型在 robotics 微调后保留的常识与世界知识,系统揭示 7 种 VLA 在各知识类别上的性能退化规律。

研究问题: VLA 模型由 VLM 微调得到,但微调后保留了多少常识和事实知识?知识缺失与低层控制泛化差如何区分?

核心方法: Act2Answer 协议:将 VLM 知识 Benchmark 改造为 VLA 评估任务,每道题变为一个桌面场景的单次物体放置动作(通过动作选择候选答案),输出动作接地成功率,避免控制混淆。引入 layerwise intent probing,在 VLM backbone 和动作头中逐层定位答案相关信息。

技术亮点:

  • 动作接地评估框架,分离知识缺失与低层控制误差
  • 层级意图探针揭示知识在 VLA 各层的分布规律
  • 系统对比 7 种 VLA 和 9 种 VLM,规模大、结论可信

实验结果: 发现 VLA 在简单概念上表现稳健,但在语义丰富类别上相对源 VLM 出现较大差距;VQA 联合训练与更好的知识保留相关;答案相关信号在中间层达到峰值,在上层衰减。

应用场景: VLA 模型评估、具身 AI 知识保留研究、机器人通用能力诊断。

研究价值: ⭐⭐⭐⭐(4/5)— 填补了 VLA 评估的重要空白,方法论严谨,结论对 VLA 架构设计有直接指导意义。


Zero-Shot Long-Horizon Dexterous Manipulation via Multi-View 3D-Grounded VLM Reasoning

链接: https://arxiv.org/abs/2606.19340

一句话总结: 无需端到端策略训练,利用 VLM + 多视角 3D 接地实现零样本长程灵巧操作,在真实机器人实验中超越单视角 RGB-D 和微调 VLA 基线。

研究问题: 如何在不训练端到端策略的前提下,利用语言指令驱动机器人完成从未见过的物体的长程灵巧操作?

核心方法: (1) VLM 生成参考帧任务接地和基元级 2D 关键点;(2) 通过多视角融合将 2D 关键点提升为 3D(三角化 + 语义相机射线投票);(3) 工具使用时从对象中心原子动作库检索并对齐 6D 工具轨迹;(4) 闭环状态验证与重规划支持长程执行。

技术亮点:

  • 完全零样本,无需对目标任务进行任何训练
  • 多视角语义射线投票解决单视角遮挡和深度歧义
  • 闭环重规划机制增强对未见物体的鲁棒性

实验结果: 真实机器人实验中在 3D 接地精度和执行可靠性上超越单视角 RGB-D 接地和微调 VLA 基线,成功完成未见物体和新场景下的工具使用任务。

应用场景: 家庭机器人、工业装配、开放世界机器人操作。

研究价值: ⭐⭐⭐⭐(4/5)— 零样本泛化能力强,工程实现完整,多视角 3D 接地方案对具身 AI 领域有重要参考价值。


OneCanvas: 3D Scene Understanding via Panoramic Reprojection

链接: https://arxiv.org/abs/2606.19253

一句话总结: 将多视角场景特征聚合到单一等矩形全景画布,无需复杂几何编码器即可赋予 VLM 3D 空间推理能力,在 SQA3D 和 VSI-Bench 上达到 SOTA,计算量减少一个数量级。

研究问题: VLM 的 3D 场景理解通常依赖复杂几何编码器或大规模训练预算,如何以最小架构修改实现高效 3D 空间推理?

核心方法: 将所有视角的 patch 特征通过深度和相机位姿反投影至 3D 世界坐标,再映射到全景画布的经纬度坐标,补充 3D 位置嵌入恢复深度信息。预训练 VLM 将该表示视为普通图像处理,无需架构修改。引入空间预训练课程:从真实图像中程序化生成对象 patch,放置于 3D 世界坐标进行空间推理监督。

技术亮点:

  • 零架构修改,直接复用预训练 VLM 的视觉处理能力
  • 全景画布统一多视角空间坐标系,支持任意视角的具身推理
  • 空间预训练课程可程序化生成大量空间推理监督信号

实验结果: SQA3D 和 VSI-Bench 达到 SOTA;在 SPBench 上展示出分布外泛化能力;训练计算量比最强竞争方法减少一个数量级。

应用场景: 具身 AI 导航、机器人场景理解、3D 空间问答。

研究价值: ⭐⭐⭐⭐(4/5)— 简洁优雅的解决方案,极低的计算开销,对具身 AI 和 3D 场景理解均有重要意义。


Explaining Attention with Program Synthesis

链接: https://arxiv.org/abs/2606.19317

一句话总结: 用程序合成自动生成可执行 Python 程序近似 Transformer 注意力头行为,实现符号级可解释性,替换 25% 注意力头后困惑度仅增加 16%,下游任务性能基本不变。

研究问题: Transformer 注意力机制缺乏人类可理解的符号描述,如何用可执行程序近似注意力头的行为模式?

核心方法: (1) 计算目标注意力头在随机训练样本上的注意力矩阵;(2) 用预训练 LLM 基于矩阵摘要生成 Python 程序集合;(3) 根据预测准确率在 held-out 数据上重排序,筛选最优程序集合。

技术亮点:

  • 首次规模化实现注意力头的程序合成逆向工程
  • 不足 1000 个程序即可在 TinyStories 上达到 75% IoU 相似度
  • 程序替代注意力头的替换实验验证了功能等价性

实验结果: 在 GPT-2、TinyLlama-1.1B、Llama-3B 上,程序集合与真实注意力模式 IoU 超过 75%;替换 25% 注意力头后平均困惑度仅增加 16%,多个 QA 基准性能基本保持。

应用场景: 模型可解释性分析、神经符号 AI、模型压缩与知识蒸馏。

研究价值: ⭐⭐⭐⭐(4/5)— 可解释性研究中的新颖思路,从"替换实验"角度验证了程序近似的保真度,对神经符号 AI 研究有启发价值。


Rubric-Conditioned Self-Distillation for Reasoning

链接: https://arxiv.org/abs/2606.19327

一句话总结: 以结构化评分标准(Rubric)作为细粒度反馈驱动策略模型在自身采样轨迹上的自蒸馏,在科学推理基准上平均超越 GRPO 1.0 分、超越 OPSD 0.9 分。

研究问题: SFT 依赖昂贵且可能噪声较大的 CoT 标注;RL 将评估压缩为标量信号,遮蔽了响应改进的方向性信息。

核心方法: Rubric-Conditioned Self-Distillation (RCSD):(1) 训练模型生成任务特定的评分标准(Rubric);(2) 用评分标准条件化 teacher 模型,对 student 模型在自身轨迹上提供 token 级引导;评分标准作为结构化中间层将标准级评估转化为过程级监督,比标量奖励更细粒度。

技术亮点:

  • Rubric 作为结构化评估框架,替代单一参考答案作为蒸馏目标
  • On-policy 自蒸馏避免分布偏移,teacher/student 同策略
  • 两阶段流水线:先学生成 Rubric,再学 Rubric 引导的推理

实验结果: 在多样科学推理基准上平均超越 GRPO 1.0 分、OPSD 0.9 分,在复杂推理任务中效果更突出。

应用场景: 推理模型训练、数学/科学自动评估、LLM 对齐。

研究价值: ⭐⭐⭐⭐(4/5)— 将结构化反馈引入训练过程的方向值得关注,比标量奖励更有信息量,对推理模型 post-training 有实践意义。


📊 今日研究趋势

2026-06-18 的 ArXiv AI 论文呈现出几个鲜明趋势:具身智能与机器人方向论文数量突出,从数据采集(DO AS I DO 的人类视频重建)、到感知(OneCanvas 3D 场景理解)、到操作(零样本灵巧操作)、再到评估(Act2Answer 的 VLA 知识诊断),形成完整的研究链条;扩散模型继续向结构化生成任务渗透,Diffusion-Proof 将 dLLM 应用于形式化定理证明是本日最具突破性的工作;VLM/多模态 Agent 领域 OmniAgent 以主动感知范式刷新视频理解 SOTA,展示了 test-time scaling 在多模态领域的潜力;模型可解释性方向出现了用程序合成逆向工程注意力头的新思路,与传统 probing 研究方向互补;此外,后训练/对齐方向的结构化反馈研究也在持续涌现。整体看,具身 AI 和 dLLM 是当前最活跃的新兴方向,值得重点跟踪。


🏆 最值得关注的 3 篇

  1. Diffusion-Proof — dLLM 首次用于形式化定理证明,解决 IMO 题目,在扩散模型应用于推理任务上具有开创性意义,方法可迁移至其他结构化生成场景。
  2. OmniAgent — ICML 2026,7B 参数长视频理解超越 72B 模型,主动感知 + POMDP 框架重新定义视频理解范式,test-time scaling 特性使其具备持续提升潜力。
  3. DO AS I DO — 从普通人类视频自动提取机器人灵巧操作轨迹,解决数据瓶颈,数据来源可无限扩展,对具身智能规模化训练有重要实践价值。

数据来源:ArXiv 2026-06-18 | 分析生成时间:2026-06-19 06:00 (北京时间)