ArXiv 每日精选 · 2026-03-13 | ElephantFlow's Blog

📅 本期精选来自 2026-03-13 ArXiv 最新论文，聚焦扩散模型、具身智能、视频理解、机器人学习等核心方向，共 8 篇。

📄 论文精选

An Open Foundation Model Towards Universal Humanoid Loco-Manipulation

链接： https://arxiv.org/abs/2603.12263

一句话总结： 提出 $\Psi_0$ 开源基础模型，使用分阶段训练策略解决人形机器人运动操纵任务，通过解耦学习过程最大化异构数据源的利用效果。

研究问题： 传统方法通过在大规模人类和人形机器人数据上联合训练来应对复杂的人形机器人运动操纵任务，但由于人类与机器人之间固有的运动学差异，导致数据效率和模型性能有限。

核心方法： 提出两阶段训练范式：1) 先在人类第一视角视频上预训练VLM骨干网络获取泛化性视觉-动作表示；2) 然后在高质量机器人数据上后训练基于流的动作专家模型，学习精确的关节控制。

技术亮点：

解耦学习策略，分别利用人类视频的丰富性和机器人数据的高精度
基于流的动作专家模型实现精细化控制
自动回归预训练获取泛化性视觉-动作表示

实验结果： 在人形机器人运动操纵基准测试中取得显著提升，相比传统联合训练方法在复杂任务上成功率提高显著。

应用场景： 人形机器人运动控制、复杂物体操纵、多任务机器人学习。

研究价值： ⭐⭐⭐⭐（4/5）— 为解决具身智能中的机器人运动控制问题提供了创新的训练范式，开源模型具有重要的社区价值。

HumDex: Humanoid Dexterous Manipulation Made Easy

链接： https://arxiv.org/abs/2603.12260

一句话总结： 提出便携式全身遥操作系统HumDex，通过IMU运动追踪和学习式重定向方法，实现高效的高质量人形机器人灵巧操作演示数据收集。

研究问题： 现有遥操作系统存在可移植性差、遮挡问题和精度不足等限制，难以为复杂的全身灵巧操作任务收集高质量演示数据。

核心方法： 1) 基于IMU的运动追踪系统解决可移植性与精度的权衡；2) 学习式重定向方法生成平滑自然的手部动作；3) 两阶段模仿学习框架：先在多样化人类动作数据上预训练获取泛化性先验，再在机器人数据上微调缩小本体差距。

技术亮点：

IMU追踪实现高精度全身动作捕捉
学习式手部动作重定向无需手动调参
两阶段学习框架显著提升泛化能力

实验结果： 在多种配置、物体和背景下均表现优秀泛化能力，大幅降低数据采集成本。

应用场景： 人形机器人灵巧操作、动作生成、遥操作学习。

研究价值： ⭐⭐⭐⭐（4/5）— 完整开源系统解决了机器人学习中的演示数据获取瓶颈问题，具有重要实用价值。

Efficient and Scalable Video Understanding via Autoregressive Gazing

链接： https://arxiv.org/abs/2603.12254

一句话总结： 提出AutoGaze轻量级模块，通过自回归注视机制选择最小但信息丰富的视频补丁，显著减少视觉令牌数量，加速视频理解模型。

研究问题： 多模态大语言模型在处理长时长、高分辨率视频时面临显著的时空冗余问题，每个像素都被同等处理，导致计算效率低下。

核心方法： 训练AutoGaze模块通过下一个令牌预测和强化学习，自回归地选择多尺度视频补丁，在用户指定的误差阈值内重建视频。

技术亮点：

自回归注意力机制动态筛选信息区域
结合强化学习优化补丁选择策略
实现视觉令牌4-100倍的压缩

实验结果： 在VideoMME基准测试上达到67.0%准确率，将ViT和MLLM加速高达19倍，可扩展到1K帧4K分辨率视频。

应用场景： 长视频理解、高分辨率视频处理、高效多模态模型。

研究价值： ⭐⭐⭐⭐（4/5）— 针对视频理解的核心效率问题提出创新解决方案，推动了长视频处理的实际应用。

Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models

链接： https://arxiv.org/abs/2603.12252

一句话总结： 提出内源性思维链（EndoCoT）框架，将MLLM的思维链推理能力融入扩散模型，实现渐进式复杂任务分解。

研究问题： 当前将MLLM作为文本编码器集成到扩散模型中的范式存在两大局限：1) MLLM编码器推理深度不足；2) 解码过程中的指导保持不变，无法实现渐进式任务分解。

核心方法： 1) 通过迭代思维指导模块激活MLLM的推理潜能；2) 通过终端思维接地模块将推理轨迹锚定到文本监督；3) 将精细推理的指导逐步传递给扩散模型。

技术亮点：

内源性思维链激活MLLM的推理能力
端到端联合训练推理与生成
支持渐进式复杂任务分解

实验结果： 在迷宫、TSP、VSP和数独等多样化基准测试中平均准确率达到92.1%，超出最强基线8.3个百分点。

应用场景： 复杂空间推理、程序生成、符号推理任务。

研究价值： ⭐⭐⭐⭐⭐（5/5）— 在扩散模型中引入深度推理能力具有重要突破性，拓展了生成模型在复杂任务中的应用边界。

Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics

链接： https://arxiv.org/abs/2603.12193

一句话总结： 提出SaPaVe端到端框架，联合学习语义驱动主动感知与鲁棒执行能力，实现复杂场景下的主动操作。

研究问题： 现有方法难以统一语义驱动的主动感知与鲁棒的、视角不变性执行，限制了机器人在复杂场景中的交互能力。

核心方法： 1) 将相机控制与操纵动作解耦而非置于共享动作空间；2) 自下而上训练策略：先在大规模数据集上训练语义相机控制，再使用混合数据联合优化两种动作类型。

技术亮点：

解耦但协调的主动感知与执行学习
3D几何感知模块提升动态视角下的执行鲁棒性
引入ActiveManip-Bench首个超越固定视角的主动操作基准

实验结果： 在模拟和真实环境中优于GR00T N1和π₀等视觉-语言-动作模型，真实任务成功率最高提升31.25%。

应用场景： 机器人主动感知、动态环境交互、视觉语言动作模型。

研究价值： ⭐⭐⭐⭐（4/5）— 为机器人主动感知与操作的结合提供了系统性解决方案，有望推动机器人交互能力的发展。

A GPU-Parallelized Analytical Contact Physics Engine for Scalable Contact-Rich Robotics Simulation and Control

链接： https://arxiv.org/abs/2603.12185

一句话总结： 提出ComFree-Sim GPU并行化解析接触物理引擎，通过无互补性接触建模实现线性时间复杂度扩展，支持密集接触场景的高效仿真与控制。

研究问题： 主流物理引擎通过互补性约束或约束优化强制执行非穿透和库仑摩擦，需要每步迭代求解，计算成本随接触密度超线性增长。

核心方法： 基于无互补性接触建模，通过类阻抗的双锥预测-校正更新计算接触冲量。接触计算在接触对之间解耦，自然地映射到GPU内核。

技术亮点：

无互补性接触建模实现闭合形式求解
GPU并行化实现线性运行时缩放
统一的6D接触模型捕捉切向、扭转和滚动摩擦

实验结果： 在密集接触场景中相比MJWarp吞吐量提升2-3倍，物理保真度相当。在实时MPC和多指灵巧手操作中表现出色。

应用场景： 机器人仿真、实时控制、接触密集型任务。

研究价值： ⭐⭐⭐⭐（4/5）— 为机器人仿真与控制的瓶颈问题提供了实用性解决方案，有望加速机器人研发流程。

Deterministic Video Depth Estimation with Generative Priors

链接： https://arxiv.org/abs/2603.12250

一句话总结： 提出DVD框架，首次将预训练的视频扩散模型确定性适配为单次深度回归器，破解视频深度估计中的生成性与判别性权衡问题。

研究问题： 现有视频深度估计面临根本权衡：生成模型受到随机几何幻觉和尺度漂移影响，而判别模型需要大规模标注数据集解决语义歧义。

核心方法： 1) 重新利用扩散时间步作为结构锚点平衡全局稳定性与高频细节；2) 潜在流形校正缓解回归引起的过度平滑；3) 全局仿射相干性确保长视频推理的一致性。

技术亮点：

利用扩散模型的生成性先验提供几何合理性
潜在流形校正恢复锐利边界和连贯运动
无需复杂时间对齐即可支持长视频推理

实验结果： 实现零样本SOTA性能，证实了生成性先验在判别任务中的潜在价值。

应用场景： 视频深度估计、3D场景理解、视频生成与控制。

研究价值： ⭐⭐⭐⭐（4/5）— 创造性融合生成与判别方法，为视频几何理解开辟了新路径。

Separable neural architectures as a primitive for unified predictive and generative intelligence

链接： https://arxiv.org/abs/2603.12244

一句话总结： 提出可分离神经网络架构作为统一预测性与生成性智能的基本模块，通过结构化归纳偏置将高维映射因子化为低维组件。

研究问题： 智能系统通常表现出可因子化结构，但当前神经架构通常是整体式的，没有明确利用这种结构属性。

核心方法： 形式化一个表示类别，统一加性、二次和分解的张量神经网络模型。通过约束交互顺序和张量秩，施加结构化归纳偏置。

技术亮点：

坐标感知的建模揭示时空混沌动力学与语言自回归的结构相似性
连续物理状态建模为平滑可分离嵌入
支撑确定性学习和分布式建模的统一框架

实验结果： 在自主导航、多功能微结构逆向生成、湍流分布建模和神经语言建模四个领域演示了方法的组合灵活性。

应用场景： 物理模拟、语言建模、多领域学习、通用智能架构。

研究价值： ⭐⭐⭐⭐⭐（5/5）— 提出了具有深远意义的通用神经架构原则，有望统一物理、语言和感知等多个领域的建模方法。

📊 今日研究趋势

今日 ArXiv AI 论文呈现出明显的三大趋势：

具身智能与机器人学习的快速发展：多篇高质量工作聚焦于人形机器人运动控制、灵巧操作和仿真引擎优化。研究重点从算法层面扩展至系统层面，形成了包括感知、决策、控制和仿真的完整技术栈。值得注意的是，开源基础模型的出现有望加速社区发展。
扩散模型的深度适应性扩展：扩散模型不再局限于像素级生成，而是与推理能力深度结合（EndoCoT），甚至可向判别性任务适配（DVD）。这表明生成性模型正在向更具泛化能力的智能工具演变。
效率与规模的平衡发展：在追求模型性能的同时，研究者也开始关注效率优化。AutoGaze的视频补丁选择和ComFree-Sim的GPU并行计算都反映了这一趋势。这预示着AI研究正在向实用化阶段过渡。

新兴方向包括：1) 视觉-语言-动作模型的深度融合，支持主动感知与执行；2) 结构化神经架构探索，寻求通用的智能建模原则；3) 大规模仿真基础设施，为机器人学习提供高效平台。

🏆 最值得关注的 3 篇

Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models — 开创性地将深度推理能力融入扩散模型，代表了生成模型从纯生成向推理-生成协同的重要突破。
Separable neural architectures as a primitive for unified predictive and generative intelligence — 提出了具有深远理论意义的结构化神经架构原则，有望成为统一物理、语言和感知建模的基本模块。
An Open Foundation Model Towards Universal Humanoid Loco-Manipulation — 开源的人形机器人基础模型，为解决具身智能中的核心控制问题提供了系统性平台，具有重要工程价值和社区意义。

数据来源：ArXiv 2026-03-13 | 分析生成时间：2026-03-14 06:00 (北京时间)

📄 论文精选#

An Open Foundation Model Towards Universal Humanoid Loco-Manipulation#

HumDex: Humanoid Dexterous Manipulation Made Easy#

Efficient and Scalable Video Understanding via Autoregressive Gazing#

Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models#

Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics#

A GPU-Parallelized Analytical Contact Physics Engine for Scalable Contact-Rich Robotics Simulation and Control#

Deterministic Video Depth Estimation with Generative Priors#

Separable neural architectures as a primitive for unified predictive and generative intelligence#

📊 今日研究趋势#

🏆 最值得关注的 3 篇#

📄 论文精选

An Open Foundation Model Towards Universal Humanoid Loco-Manipulation

HumDex: Humanoid Dexterous Manipulation Made Easy

Efficient and Scalable Video Understanding via Autoregressive Gazing

Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models

Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics

A GPU-Parallelized Analytical Contact Physics Engine for Scalable Contact-Rich Robotics Simulation and Control

Deterministic Video Depth Estimation with Generative Priors

Separable neural architectures as a primitive for unified predictive and generative intelligence

📊 今日研究趋势

🏆 最值得关注的 3 篇