ArXiv 每日精选 · 2026-06-18 | ElephantFlow's Blog

📅 本期精选来自 2026-06-18 ArXiv 最新论文，聚焦扩散模型、具身智能、VLM、机器人操作等核心方向，共 8 篇。

📄 论文精选

Diffusion-Proof: Recipe for Formal Theorem Proving Beyond Auto-Regressive Generation

链接： https://arxiv.org/abs/2606.19315

一句话总结： 首次将扩散语言模型（dLLM）应用于形式化定理证明，通过全证明生成与局部纠错双模型协同，在 MiniF2F-Test 上绝对提升 6.14%，并解决了 DeepSeek-Prover-V2-7B 未能解决的 IMO 题目。

研究问题： 自回归 LLM 在形式化定理证明中面临长程一致性差、误差累积严重的问题；扩散 LLM 在数学推理中的应用几乎空白。

核心方法： 提出 Diffusion-Proof 框架，包含两个模型：(1) dLLM-Prover-7B：以多 token 块去噪方式生成完整证明，保持长程策略一致性；(2) dLLM-Corrector-7B：利用 dLLM 的填充能力对局部证明步骤进行双向纠错。两模型协同完成从草稿生成到精修的全流程。

技术亮点：

首次将扩散 LLM 引入形式化数学证明任务，打破自回归垄断
利用 dLLM 天然支持 in-filling（双向信息流）的特性解决局部纠错难题
多 token 块并行生成减少长证明中的误差传播

实验结果： 在 ProofNet-Test 上绝对提升 1.61%，MiniF2F-Test 上绝对提升 6.14%（相对自回归基线）；成功解决一道 DeepSeek-Prover-V2-7B 无法证明的 IMO 题目，展示了 dLLM 在形式推理中的独特优势。

应用场景： 数学竞赛自动证明、形式化验证、交互式定理证明辅助工具（Lean/Coq）。

研究价值： ⭐⭐⭐⭐⭐（5/5）— 扩散模型在推理任务上的突破性尝试，开辟了 dLLM 用于结构化生成的新赛道，方法论创新显著，实验结果有说服力。

链接： https://arxiv.org/abs/2606.19341

一句话总结： 首个原生全模态主动感知 Agent，将视频理解建模为 POMDP 迭代推理循环，7B 参数在 LVBench 上超越 72B 的 Qwen2.5-VL（50.5% vs 47.3%），已接收于 ICML 2026。

研究问题： 长视频理解中"全量处理"范式导致计算代价随视频时长线性增长，已有交互式框架仍依赖全局预扫描；需要将推理复杂度与视频原始时长解耦。

核心方法： OmniAgent 将视频理解建模为 POMDP 的 Observation-Thought-Action 迭代循环：按需执行动作、选择性蒸馏音视频线索至持久化文本记忆。训练分两阶段：(1) Agentic SFT（基于 best-of-N 轨迹合成与双阶段质量控制的主动感知引导）；(2) Agentic RL（TAURA：Turn-aware Adaptive Uncertainty Rescaled Advantage，利用轮次级熵引导信用分配至关键发现轮次）。

技术亮点：

POMDP 建模将推理复杂度与视频时长解耦，实现 test-time scaling（更多推理轮次 → 更高性能）
TAURA 方法利用轮次熵动态调整 RL 信用分配，聚焦关键决策时刻
主动感知避免全局预扫描，计算效率大幅提升

实验结果： 在 VideoMME、LVBench 等 10 个 Benchmark 上达到开源 SOTA；7B 模型在 LVBench 上以 50.5% 超过 Qwen2.5-VL-72B 的 47.3%，展示强烈的参数效率优势。

应用场景： 长视频问答、视频检索、多模态 Agent、视频监控分析。

研究价值： ⭐⭐⭐⭐⭐（5/5）— ICML 2026 接收，7B 胜 72B 的结果有力证明主动感知范式的有效性，方法创新度高，影响力强。

DO AS I DO: Dexterous Manipulation Data from Everyday Human Videos

链接： https://arxiv.org/abs/2606.19333

一句话总结： 从普通单目 RGB 人类视频中重建并迁移灵巧操作轨迹到多指机器人手，解决机器人操作数据稀缺问题，在手-物交互估计和轨迹提取上超越现有 SOTA。

研究问题： 灵巧机器人手的操作数据采集成本极高，如何从大量现成的人类视频中自动提取可执行的机器人操作数据？

核心方法： DO AS I DO 算法：(1) 从自我视角（egocentric）和外部视角（exocentric）野外视频中重建手-物交互；(2) 将手-物交互估计结果重定向（retarget）到多指灵巧机器人手的可执行动作序列；(3) 提出 efficacy playbook 指导从业者收集人类操作数据。

技术亮点：

仅用 RGB 视频（无深度传感器）实现手-物 6DoF 交互重建
跨体态迁移（human-to-robot embodiment gap）的系统性解决方案
数据来源无限（互联网视频），大幅降低数据获取成本

实验结果： 在多个具有 ground truth 的数据集上超越现有 SOTA；成功从在线视频片段中提取可用操作轨迹。

应用场景： 灵巧操作机器人训练数据生成、从网络视频学习操作技能、人机协作。

研究价值： ⭐⭐⭐⭐（4/5）— 解决了机器人学习中的核心数据瓶颈，数据获取方案极具扩展性，对具身智能领域有重要实践意义。

Act2Answer: Does VLA Even Know the Basics? Measuring Commonsense and World Knowledge Retention in Vision-Language-Action Models

链接： https://arxiv.org/abs/2606.19297

一句话总结： 提出 Act2Answer 协议，通过动作接地方式评估 VLA 模型在 robotics 微调后保留的常识与世界知识，系统揭示 7 种 VLA 在各知识类别上的性能退化规律。

研究问题： VLA 模型由 VLM 微调得到，但微调后保留了多少常识和事实知识？知识缺失与低层控制泛化差如何区分？

核心方法： Act2Answer 协议：将 VLM 知识 Benchmark 改造为 VLA 评估任务，每道题变为一个桌面场景的单次物体放置动作（通过动作选择候选答案），输出动作接地成功率，避免控制混淆。引入 layerwise intent probing，在 VLM backbone 和动作头中逐层定位答案相关信息。

技术亮点：

动作接地评估框架，分离知识缺失与低层控制误差
层级意图探针揭示知识在 VLA 各层的分布规律
系统对比 7 种 VLA 和 9 种 VLM，规模大、结论可信

实验结果： 发现 VLA 在简单概念上表现稳健，但在语义丰富类别上相对源 VLM 出现较大差距；VQA 联合训练与更好的知识保留相关；答案相关信号在中间层达到峰值，在上层衰减。

应用场景： VLA 模型评估、具身 AI 知识保留研究、机器人通用能力诊断。

研究价值： ⭐⭐⭐⭐（4/5）— 填补了 VLA 评估的重要空白，方法论严谨，结论对 VLA 架构设计有直接指导意义。

Zero-Shot Long-Horizon Dexterous Manipulation via Multi-View 3D-Grounded VLM Reasoning

链接： https://arxiv.org/abs/2606.19340

一句话总结： 无需端到端策略训练，利用 VLM + 多视角 3D 接地实现零样本长程灵巧操作，在真实机器人实验中超越单视角 RGB-D 和微调 VLA 基线。

研究问题： 如何在不训练端到端策略的前提下，利用语言指令驱动机器人完成从未见过的物体的长程灵巧操作？

核心方法： (1) VLM 生成参考帧任务接地和基元级 2D 关键点；(2) 通过多视角融合将 2D 关键点提升为 3D（三角化 + 语义相机射线投票）；(3) 工具使用时从对象中心原子动作库检索并对齐 6D 工具轨迹；(4) 闭环状态验证与重规划支持长程执行。

技术亮点：

完全零样本，无需对目标任务进行任何训练
多视角语义射线投票解决单视角遮挡和深度歧义
闭环重规划机制增强对未见物体的鲁棒性

实验结果： 真实机器人实验中在 3D 接地精度和执行可靠性上超越单视角 RGB-D 接地和微调 VLA 基线，成功完成未见物体和新场景下的工具使用任务。

应用场景： 家庭机器人、工业装配、开放世界机器人操作。

研究价值： ⭐⭐⭐⭐（4/5）— 零样本泛化能力强，工程实现完整，多视角 3D 接地方案对具身 AI 领域有重要参考价值。

OneCanvas: 3D Scene Understanding via Panoramic Reprojection

链接： https://arxiv.org/abs/2606.19253

一句话总结： 将多视角场景特征聚合到单一等矩形全景画布，无需复杂几何编码器即可赋予 VLM 3D 空间推理能力，在 SQA3D 和 VSI-Bench 上达到 SOTA，计算量减少一个数量级。

研究问题： VLM 的 3D 场景理解通常依赖复杂几何编码器或大规模训练预算，如何以最小架构修改实现高效 3D 空间推理？

核心方法： 将所有视角的 patch 特征通过深度和相机位姿反投影至 3D 世界坐标，再映射到全景画布的经纬度坐标，补充 3D 位置嵌入恢复深度信息。预训练 VLM 将该表示视为普通图像处理，无需架构修改。引入空间预训练课程：从真实图像中程序化生成对象 patch，放置于 3D 世界坐标进行空间推理监督。

技术亮点：

零架构修改，直接复用预训练 VLM 的视觉处理能力
全景画布统一多视角空间坐标系，支持任意视角的具身推理
空间预训练课程可程序化生成大量空间推理监督信号

实验结果： SQA3D 和 VSI-Bench 达到 SOTA；在 SPBench 上展示出分布外泛化能力；训练计算量比最强竞争方法减少一个数量级。

应用场景： 具身 AI 导航、机器人场景理解、3D 空间问答。

研究价值： ⭐⭐⭐⭐（4/5）— 简洁优雅的解决方案，极低的计算开销，对具身 AI 和 3D 场景理解均有重要意义。

Explaining Attention with Program Synthesis

链接： https://arxiv.org/abs/2606.19317

一句话总结： 用程序合成自动生成可执行 Python 程序近似 Transformer 注意力头行为，实现符号级可解释性，替换 25% 注意力头后困惑度仅增加 16%，下游任务性能基本不变。

研究问题： Transformer 注意力机制缺乏人类可理解的符号描述，如何用可执行程序近似注意力头的行为模式？

核心方法： (1) 计算目标注意力头在随机训练样本上的注意力矩阵；(2) 用预训练 LLM 基于矩阵摘要生成 Python 程序集合；(3) 根据预测准确率在 held-out 数据上重排序，筛选最优程序集合。

技术亮点：

首次规模化实现注意力头的程序合成逆向工程
不足 1000 个程序即可在 TinyStories 上达到 75% IoU 相似度
程序替代注意力头的替换实验验证了功能等价性

实验结果： 在 GPT-2、TinyLlama-1.1B、Llama-3B 上，程序集合与真实注意力模式 IoU 超过 75%；替换 25% 注意力头后平均困惑度仅增加 16%，多个 QA 基准性能基本保持。

应用场景： 模型可解释性分析、神经符号 AI、模型压缩与知识蒸馏。

研究价值： ⭐⭐⭐⭐（4/5）— 可解释性研究中的新颖思路，从"替换实验"角度验证了程序近似的保真度，对神经符号 AI 研究有启发价值。

Rubric-Conditioned Self-Distillation for Reasoning

链接： https://arxiv.org/abs/2606.19327

一句话总结： 以结构化评分标准（Rubric）作为细粒度反馈驱动策略模型在自身采样轨迹上的自蒸馏，在科学推理基准上平均超越 GRPO 1.0 分、超越 OPSD 0.9 分。

研究问题： SFT 依赖昂贵且可能噪声较大的 CoT 标注；RL 将评估压缩为标量信号，遮蔽了响应改进的方向性信息。

核心方法： Rubric-Conditioned Self-Distillation (RCSD)：(1) 训练模型生成任务特定的评分标准（Rubric）；(2) 用评分标准条件化 teacher 模型，对 student 模型在自身轨迹上提供 token 级引导；评分标准作为结构化中间层将标准级评估转化为过程级监督，比标量奖励更细粒度。

技术亮点：

Rubric 作为结构化评估框架，替代单一参考答案作为蒸馏目标
On-policy 自蒸馏避免分布偏移，teacher/student 同策略
两阶段流水线：先学生成 Rubric，再学 Rubric 引导的推理

实验结果： 在多样科学推理基准上平均超越 GRPO 1.0 分、OPSD 0.9 分，在复杂推理任务中效果更突出。

应用场景： 推理模型训练、数学/科学自动评估、LLM 对齐。

研究价值： ⭐⭐⭐⭐（4/5）— 将结构化反馈引入训练过程的方向值得关注，比标量奖励更有信息量，对推理模型 post-training 有实践意义。

📊 今日研究趋势

2026-06-18 的 ArXiv AI 论文呈现出几个鲜明趋势：具身智能与机器人方向论文数量突出，从数据采集（DO AS I DO 的人类视频重建）、到感知（OneCanvas 3D 场景理解）、到操作（零样本灵巧操作）、再到评估（Act2Answer 的 VLA 知识诊断），形成完整的研究链条；扩散模型继续向结构化生成任务渗透，Diffusion-Proof 将 dLLM 应用于形式化定理证明是本日最具突破性的工作；VLM/多模态 Agent 领域 OmniAgent 以主动感知范式刷新视频理解 SOTA，展示了 test-time scaling 在多模态领域的潜力；模型可解释性方向出现了用程序合成逆向工程注意力头的新思路，与传统 probing 研究方向互补；此外，后训练/对齐方向的结构化反馈研究也在持续涌现。整体看，具身 AI 和 dLLM 是当前最活跃的新兴方向，值得重点跟踪。

🏆 最值得关注的 3 篇

Diffusion-Proof — dLLM 首次用于形式化定理证明，解决 IMO 题目，在扩散模型应用于推理任务上具有开创性意义，方法可迁移至其他结构化生成场景。
OmniAgent — ICML 2026，7B 参数长视频理解超越 72B 模型，主动感知 + POMDP 框架重新定义视频理解范式，test-time scaling 特性使其具备持续提升潜力。
DO AS I DO — 从普通人类视频自动提取机器人灵巧操作轨迹，解决数据瓶颈，数据来源可无限扩展，对具身智能规模化训练有重要实践价值。

数据来源：ArXiv 2026-06-18 | 分析生成时间：2026-06-19 06:00 (北京时间)

📄 论文精选#

Diffusion-Proof: Recipe for Formal Theorem Proving Beyond Auto-Regressive Generation#

OmniAgent: Native Active Perception as Reasoning for Omni-Modal Understanding#

DO AS I DO: Dexterous Manipulation Data from Everyday Human Videos#

Act2Answer: Does VLA Even Know the Basics? Measuring Commonsense and World Knowledge Retention in Vision-Language-Action Models#

Zero-Shot Long-Horizon Dexterous Manipulation via Multi-View 3D-Grounded VLM Reasoning#

OneCanvas: 3D Scene Understanding via Panoramic Reprojection#

Explaining Attention with Program Synthesis#

Rubric-Conditioned Self-Distillation for Reasoning#

📊 今日研究趋势#

🏆 最值得关注的 3 篇#

📄 论文精选

Diffusion-Proof: Recipe for Formal Theorem Proving Beyond Auto-Regressive Generation

OmniAgent: Native Active Perception as Reasoning for Omni-Modal Understanding

DO AS I DO: Dexterous Manipulation Data from Everyday Human Videos

Act2Answer: Does VLA Even Know the Basics? Measuring Commonsense and World Knowledge Retention in Vision-Language-Action Models

Zero-Shot Long-Horizon Dexterous Manipulation via Multi-View 3D-Grounded VLM Reasoning

OneCanvas: 3D Scene Understanding via Panoramic Reprojection

Explaining Attention with Program Synthesis

Rubric-Conditioned Self-Distillation for Reasoning

📊 今日研究趋势

🏆 最值得关注的 3 篇