📅 本期精选来自 2026-03-15 ArXiv 最新论文,聚焦具身智能、视频生成与理解、扩散模型可控性、流式空间感知等核心方向,共 8 篇。


📄 论文精选

Ψ₀ (Psi-Zero): An Open Foundation Model Towards Universal Humanoid Loco-Manipulation

链接: https://arxiv.org/abs/2603.12263

一句话总结: 提出 Ψ₀,一个开源类人机器人基础模型,通过解耦预训练(自我中心人类视频)与后训练(机器人真实轨迹)两阶段范式,仅用 800 小时人类视频和 30 小时机器人数据,在行走-操作任务上超越使用 10 倍以上数据的基线超 40%。

研究问题: 现有方法将人类数据与类人机器人数据混合训练,但二者在运动学与动态特性上存在根本差异,导致数据利用效率低、模型性能不佳。

核心方法: 提出分阶段训练范式:第一阶段在大规模自我中心人类视频上以自回归方式预训练 VLM 主干,学习通用视觉-动作表征;第二阶段在高质量类人机器人数据上训练基于 Flow 的动作专家模块,学习精确的关节控制。

技术亮点:

  • 解耦学习策略,最大化异构数据源利用率
  • Flow-based 动作专家专门处理机器人关节控制,避免与人类动作表征冲突
  • 关键数据配方:高质量自我中心人类操作数据预训练 + 领域特定真实类人机器人轨迹后训练
  • 完整开源生态:数据处理与训练流水线、类人基础模型、实时动作推理引擎

实验结果: 仅使用 ~800 小时人类视频和 30 小时真实机器人数据,在多项类人操作任务中整体成功率超越使用 10× 以上数据的基线 40%+。在真实世界实验中表现领先。

应用场景: 类人机器人行走-操作(loco-manipulation)任务、通用机器人策略学习、具身智能基础模型。

研究价值: ⭐⭐⭐⭐⭐(5/5)— 数据效率提升极为显著,解耦范式从根本上解决了人-机器人异构数据混训问题,完全开源对社区价值极高,是近期具身智能领域最值得关注的工作之一。


OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams

链接: https://arxiv.org/abs/2603.12265

一句话总结: OmniStream 提出一个统一的流式视觉主干网络,通过因果时空注意力和 3D-RoPE 位置编码,在单个冻结主干上同时实现图像/视频语义感知、流式几何重建和机器人操作,向通用具身视觉感知迈出重要一步。

研究问题: 现有视觉基础模型各司其职(语义感知、时序建模、空间几何),缺乏能在实时流式环境中统一处理感知、重建与行动的通用视觉主干。

核心方法: 引入 OmniStream——具有因果时空注意力和 3D 旋转位置编码(3D-RoPE)的统一流式视觉主干,通过持久 KV-cache 支持逐帧在线处理。在 29 个数据集上采用多任务协同预训练框架:静态+时序表征学习、流式几何重建、视觉-语言对齐。

技术亮点:

  • 因果时空注意力 + 3D-RoPE,天然支持流式在线视频处理
  • 持久 KV-cache 实现高效帧级递增处理
  • 多任务协同预训练涵盖语义、几何、语言对齐三大维度
  • 冻结主干情况下即可在图像/视频探测、几何重建、空间推理、机器人操作(训练中未见)等多任务竞争性能

实验结果: 在图像/视频探测、流式几何重建、复杂视频和空间推理以及机器人操作任务上,冻结主干即可与专家模型竞争,体现出强大的泛化能力。

应用场景: 具身智能代理的实时感知、流式 3D 场景重建、机器人操作、视频理解。

研究价值: ⭐⭐⭐⭐⭐(5/5)— 将感知、重建与行动统一于单一主干的思路极具前瞻性,在不针对具体任务调优的情况下实现竞争性性能,代表了通用视觉基础模型的重要探索方向。


Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

链接: https://arxiv.org/abs/2603.12262

一句话总结: 提出 Video Streaming Thinking(VST)范式,让视频大模型在流式观看视频的同时并行推理,通过将 LLM 推理延迟分摊到视频播放过程中,在保持实时响应性的同时显著提升推理质量。

研究问题: 现有在线 VideoLLM 方法专注于流式感知但缺乏同步逻辑推理流;直接引入测试时缩放会导致不可接受的响应延迟,如何在实时性与推理深度之间取得平衡是核心挑战。

核心方法: VST 引入"边看边想"机制,在视频流入过程中对传入片段激活推理。训练流水线包括:VST-SFT(将离线 VideoLLM 结构性适配为因果流式推理)和 VST-RL(通过多轮视频交互环境中的自我探索端到端提升)。还设计了基于视频知识图谱的自动训练数据合成流水线。

技术亮点:

  • “边看边想"机制将推理延迟平摊到视频播放时间轴上
  • VST-RL 通过多轮视频交互环境自我探索强化学习
  • 基于实体关系的流式 Chain-of-Thought 强制多证据推理
  • 响应速度比 Video-R1 快 15.7 倍,同时提升 VideoHolmes +5.4%

实验结果: VST-7B 在在线视频基准上表现强劲:StreamingBench 79.5%、OVO-Bench 59.3%,同时在离线长视频基准上保持竞争力,与 Video-R1 相比速度提升 15.7×。

应用场景: 实时视频问答、流式视频监控分析、视频代理(Video Agent)、在线视频辅助系统。

研究价值: ⭐⭐⭐⭐(4/5)— 流式推理范式对实时视频 AI 应用具有重要实践价值,速度与性能双提升令人印象深刻,有望推动视频 LLM 向真实部署场景进化。


EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

链接: https://arxiv.org/abs/2603.12267

一句话总结: 提出 EVATok 框架,通过为每段视频自适应分配最优 token 数量(而非固定均匀分配),在视频重建和下游自回归生成任务上显著提升效率,相比 SOTA 节省至少 24.4% 的 token 用量,同时达到更好的质量。

研究问题: 现有视频 tokenizer 对所有时序块均匀分配 token,对静态/重复片段浪费 token 而对动态/复杂片段分配不足,导致质量-计算代价的 Pareto 前沿不理想。

核心方法: EVATok 框架包含三个核心组件:①最优 token 分配估计器(为每段视频估算最优分配方案);②轻量级路由器(快速预测最优分配);③自适应 tokenizer(基于路由器预测对视频进行编码)。引入视频语义编码器增强的先进训练配方。

技术亮点:

  • 自适应 token 分配突破均匀分配的效率瓶颈
  • 轻量级路由器实现推理时快速分配预测
  • 视频语义编码器集成改善重建质量
  • CVPR 2026 录用,在 UCF-101 上达到 SOTA 类别-视频生成性能

实验结果: 在 UCF-101 上实现 SOTA 类别-视频生成,相比先前 SOTA LARP 和固定长度基线节省至少 24.4% 的平均 token 用量,重建质量同步提升。

应用场景: 自回归视频生成、视频理解、高效视频压缩与表示学习。

研究价值: ⭐⭐⭐⭐(4/5)— 自适应 tokenization 方向在效率与质量上双重突破,CVPR 2026 肯定其影响力,对视频生成模型的 scalability 有重要意义。


Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training

链接: https://arxiv.org/abs/2603.12255

一句话总结: 提出 Spatial-TTT,通过测试时训练(TTT)将"快权重"适配于流式视频中的空间信息,结合 3D 时空卷积的空间预测机制,在长时序视频的 3D 空间理解任务上取得 SOTA。

研究问题: 如何从可能无界的流式视频中持续维护和更新空间信息?核心挑战不在于更长的上下文窗口,而在于如何选择、组织和保留随时间积累的空间证据。

核心方法: 设计混合架构结合大块更新(与滑动窗口注意力并行)实现高效空间视频处理;引入基于 3D 时空卷积的空间预测机制应用于 TTT 层,鼓励模型捕获跨帧几何对应关系和时序连续性;构建含密集 3D 空间描述的专项数据集引导模型将全局 3D 空间信号以结构化方式组织到快权重中。

技术亮点:

  • 测试时训练(TTT)动态适配快权重以捕获场景特定空间信息
  • 3D 时空卷积空间预测机制增强几何感知
  • 大块更新并行滑动窗口注意力,高效处理长视频
  • 密集 3D 空间描述数据集构建,有效引导空间信息结构化记忆

实验结果: 在视频空间理解基准上取得 SOTA 性能,显著改善长时序场景下的空间理解能力。

应用场景: 长时序场景的 3D 空间理解、机器人导航、增强现实、自动驾驶场景理解。

研究价值: ⭐⭐⭐⭐(4/5)— 将 TTT 用于流式空间智能是新颖且有前景的探索,对具身 AI 和需要持续空间感知的场景具有直接应用价值。


The Latent Color Subspace: Emergent Order in High-Dimensional Chaos

链接: https://arxiv.org/abs/2603.12261

一句话总结: 通过对 FLUX.1 扩散模型 VAE 隐空间的系统分析,发现并验证了一个反映 HSL(色相、饱和度、亮度)结构的隐颜色子空间(LCS),并基于此提出无需训练的闭式颜色控制方法。

研究问题: 文本到图像生成模型难以实现对颜色的精细控制,根本原因在于对语义信息在隐空间中的编码方式理解不足。

核心方法: 对 FLUX.1 [Dev] 的 VAE 隐空间进行系统分析,揭示出反映 HSL 颜色结构的隐颜色子空间(LCS);通过闭式隐空间操作验证 LCS 可用于预测和显式控制颜色;提出完全无训练的 FLUX 颜色控制方法,仅需对隐空间进行解析操作。

技术亮点:

  • 在高维隐空间中发现可解释的颜色子空间,具有理论美感
  • 完全无训练(training-free)的颜色控制方法,部署成本极低
  • 闭式数学操作,无需额外推理开销
  • 对扩散模型隐空间的可解释性研究有普遍指导意义

实验结果: 验证 LCS 可同时预测和控制生成图像颜色,作为 FLUX 扩散模型的无训练颜色控制方法有效。代码已开源。

应用场景: 文本到图像生成的精细颜色控制、扩散模型隐空间可解释性研究、图像编辑中的颜色调整。

研究价值: ⭐⭐⭐⭐(4/5)— 在扩散模型可控性这一热门问题上提供了简洁、无训练的解决方案,隐空间可解释性的发现对整个扩散模型研究社区有参考价值。


AutoGaze: Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

链接: https://arxiv.org/abs/2603.12254

一句话总结: 提出 AutoGaze 轻量模块,用下一 token 预测与强化学习训练自回归地选择最少有效视觉 patch,将视觉 token 减少 4×–100×、ViT/MLLM 加速高达 19×,使 MLLM 可扩展到 1K 帧 4K 分辨率视频,并在 VideoMME 上达到 67.0%。

研究问题: 多模态 LLM 处理长高分辨率视频时等同对待每个像素,而视频存在显著的时空冗余,导致计算资源浪费,难以处理超长超高清视频。

核心方法: AutoGaze 为 ViT 或 MLLM 前置的轻量模块,通过下一 token 预测和强化学习训练,自回归选择满足用户指定误差阈值的最小多尺度 patch 集合,在消除冗余的同时保留关键信息。还提出 HLVid 基准——首个含 5 分钟 4K 分辨率视频的长高清视频 QA 基准。

技术亮点:

  • 自回归 patch 选择,token 减少 4×–100×
  • RL 训练确保信息保留与冗余消除的最优平衡
  • 支持 MLLM 扩展到 1K 帧 4K 分辨率视频
  • CVPR 2026 录用,配套 HLVid 新基准推动领域进步

实验结果: VideoMME 上达 67.0%;在新提出的 HLVid 基准上,配合 AutoGaze 的 MLLM 比基线提升 10.1%,超越此前最佳 MLLM 4.5%。CVPR 2026 录用。

应用场景: 长视频和高清视频的高效理解、视频问答、视频内容分析、边缘端视频 AI 部署。

研究价值: ⭐⭐⭐⭐(4/5)— 大幅提升长高清视频处理效率,同时保持甚至超越原有性能,实用性极强,HLVid 新基准的贡献也不可忽视。


ComFree-Sim: A GPU-Parallelized Analytical Contact Physics Engine for Scalable Contact-Rich Robotics Simulation

链接: https://arxiv.org/abs/2603.12185

一句话总结: 提出 ComFree-Sim,一个无互补约束(complementarity-free)的 GPU 并行解析接触物理引擎,通过闭式接触冲量计算实现接触对之间的解耦,在密集接触场景下实现近线性运行时间扩展,吞吐量比 MJWarp 高 2–3 倍。

研究问题: 主流物理仿真引擎通过互补约束或约束优化处理接触,每步需要迭代求解,计算代价随接触密度超线性增长,严重限制了接触密集型机器人仿真的规模。

核心方法: 基于无互补约束的接触建模,通过阻抗式预测-校正更新在库仑摩擦力的对偶锥上以闭式计算接触冲量;接触计算在接触对间解耦,天然适合 GPU 并行;扩展到统一 6D 接触模型(切向、扭转、滚动摩擦);基于 Warp 实现,通过 MuJoCo 兼容接口提供即插即用的 MJWarp 替代后端。

技术亮点:

  • 闭式接触冲量计算,无需每步迭代求解
  • 跨接触对完全解耦,GPU 并行效率极高
  • 密集接触场景下近线性扩展,MJWarp 的 2–3 倍吞吐量
  • 在真实多指 LEAP 手上验证了实时 MPC 在手操作

实验结果: 在密集接触场景下实现近线性扩展和比 MJWarp 高 2–3 倍的吞吐量,物理保真度相当。在真实世界多指灵巧操作任务中,低延迟仿真带来更高的闭环成功率。

应用场景: 接触密集型机器人仿真(灵巧手、行走机器人)、强化学习训练环境、模型预测控制(MPC)、运动重定向。

研究价值: ⭐⭐⭐(3/5)— 解决了机器人仿真的实际工程瓶颈,近线性扩展特性对大规模 RL 训练有重要价值,但更偏向工程贡献,理论创新相对有限。


📊 今日研究趋势

2026-03-15 的 ArXiv AI 论文整体呈现出以下核心趋势:具身智能与通用感知成为最活跃方向,多篇论文聚焦如何让视觉主干统一处理感知、重建与动作(OmniStream),以及如何高效训练类人机器人策略(Ψ₀)。流式视频理解迎来突破期——VST 的"边看边想"范式和 AutoGaze 的自回归 patch 选择共同推进了实时视频 AI 的实用化边界。扩散模型可解释性与控制方向涌现出 LCS 这样优雅的无训练方法,暗示隐空间结构分析将持续产出有价值成果。高效表征是贯穿全天论文的横向主题,无论是自适应视频 tokenization(EVATok)还是自回归视觉 patch 选择(AutoGaze),都在追求更少计算换取更好效果。机器人领域则在软硬件协同(CRAFT Hand)和高效物理仿真(ComFree-Sim)两端同步推进,为具身 AI 的基础设施建设提供支撑。


🏆 最值得关注的 3 篇

  1. Ψ₀ (Psi-Zero) — 以极少数据(800h人类视频+30h机器人数据)超越10倍以上数据量基线40%+,解耦范式从根本上重构了类人机器人基础模型的训练思路,完整开源生态对社区价值极高。

  2. OmniStream — 单一冻结视觉主干同时实现语义感知、几何重建和机器人操作,在29个数据集上多任务协同预训练展示了通用具身视觉基础模型的可行路径,对未来研究方向有深远影响。

  3. Video Streaming Thinking (VST) — 将推理延迟分摊到视频播放时间轴的"边看边想"机制,以15.7倍速度优势同步提升性能,为实时视频 AI 应用的落地提供了切实可行的技术路线。


数据来源:ArXiv 2026-03-15 | 分析生成时间:2026-03-16 06:00 (北京时间)