Arxiv CV 每日精选 · 2026-03-04

本文精选 2026-03-04 Arxiv 计算机视觉方向高价值论文 16 篇，涵盖 3D 视觉、扩散模型、多模态大模型、视频生成等方向，附核心创新点与工程借鉴价值分析。

📊 方向分布

细分方向	论文数
3D 视觉	5
多模态视觉语言模型	5
视频生成 / 人体动作	3
扩散模型 / 生成模型	1
目标检测 / 异常检测	1
视觉-语言-动作模型	1

🧊 3D 视觉

1. Utonia — 面向所有点云的统一编码器

英文标题： Toward One Encoder for All Point Clouds (Utonia) 发表状态： CVPR 2026 相关项目 论文链接： arxiv.org/abs/2603.03283

核心创新点

首个跨域自监督点云 Transformer 编码器，覆盖遥感、室外 LiDAR、室内 RGB-D、物体 CAD 模型和单目视频提升点云，统一表征空间兼容所有域。显著提升感知能力，并出现跨域联合训练的涌现行为。Utonia 特征还可提升具身 VLA 策略的机器人操作性能以及视觉-语言模型的空间推理能力。

为什么值得关注

稀疏 3D 数据基础模型的重要里程碑，覆盖自动驾驶 / 机器人 / AR-VR 全场景，工程落地价值极高。

工程借鉴

多域联合训练策略
跨域一致表征空间设计
点云特征与 VLA/VLM 对接接口设计

2. LoGeR — 基于混合记忆的长上下文几何重建

英文标题： LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory 发表状态： 预印本 论文链接： arxiv.org/abs/2603.03269

核心创新点

将密集 3D 重建扩展至极长视频序列，无需后优化。提出学习型混合记忆模块：TTT 参数化记忆锚定全局坐标系防止尺度漂移，SWA 非参数记忆保留高精度相邻帧对齐。在 128 帧训练下可泛化至推理时数千帧，KITTI ATE 相比 SOTA 降低 74%。

为什么值得关注

长视频 3D 重建的突破性工作，对自动驾驶 / 机器人长程导航具有直接实用价值。

工程借鉴

TTT 记忆与 SWA 混合架构
分块处理 + 跨块一致性的工程化方案
长序列泛化训练策略

3. RL3DEdit — 几何引导的强化学习用于多视图一致 3D 场景编辑

英文标题： RL3DEdit: Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing 发表状态： 预印本 论文链接： arxiv.org/abs/2603.03143

核心创新点

发现 3D 一致内容难生成但易验证，天然适合 RL 框架。利用 VGGT 基础模型的置信图和位姿估计误差作为奖励信号，将 2D 编辑先验锚定到 3D 一致流形。单次前向即完成编辑，无需 3D 一致配对数据监督。

为什么值得关注

用 RL 解决 3D 编辑数据稀缺难题的创新方案，思路新颖且单次推理高效，有较强落地潜力。

工程借鉴

3D 一致性可验证性作为 RL 奖励设计
VGGT 基础模型作为 3D 先验奖励源
无配对数据的 3D 编辑训练

4. VIRGi — 3D 高斯溅射的视角依赖即时重着色

英文标题： VIRGi: View-dependent Instant Recoloring of 3D Gaussian Splats 发表状态： IEEE TPAMI 2026 论文链接： arxiv.org/abs/2603.02986

核心创新点

首个针对 3DGS 的高效光真实感重着色方法，将颜色分解为漫反射和视角相关分量。多视角图像 Patch 训练策略提升重建精度。仅需用户提供一张编辑图，2 秒内通过 MLP 微调 + 单次分割完成全场景颜色传播，支持实时交互。

为什么值得关注

IEEE TPAMI 2026 发表，解决 3DGS 场景编辑的重要缺口，2 秒级响应支持实时创意编辑。

工程借鉴

漫反射 / 视角依赖颜色分解
单图驱动全场景快速颜色传播
多视角 batch 训练提升一致性

5. URGT — 任意分辨率任意几何：从多视角到多 Patch

英文标题： URGT: Any Resolution Any Geometry - From Multi-View To Multi-Patch 发表状态： 预印本 论文链接： arxiv.org/abs/2603.03026

核心创新点

将 VGGT 适配为多 Patch 统一 Transformer，单前向同时预测高分辨率深度和法线。粗糙先验增强的 Patch 输入 + 跨 Patch 注意力实现全局一致性。GridMix 随机 Patch 采样提升跨 Patch 一致性和泛化。在 UnrealStereo4K 上 AbsRel 从 0.0582 降至 0.0291，RMSE 从 2.17 降至 1.31。

为什么值得关注

单前向高分辨率几何重建新 SOTA，无需优化后处理，强零样本和跨域泛化，工程友好。

工程借鉴

多 Patch 联合处理替代分块拼接
先验驱动的 Patch 输入增强
跨 Patch 长程注意力设计

🎨 扩散模型 / 生成模型

6. CFG-Ctrl — 基于控制理论的无分类器扩散引导

英文标题： CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance 发表状态： CVPR 2026 论文链接： arxiv.org/abs/2603.03281

核心创新点

将 CFG 重新解释为一阶连续时间生成流上的控制信号，提出滑模控制 CFG（SMC-CFG），用非线性反馈纠正解决线性控制的不稳定性和语义过冲问题。提供 Lyapunov 稳定性分析理论保证。在 SD 3.5、Flux、Qwen-Image 上优于标准 CFG，大尺度引导下语义保真度更高。

为什么值得关注

CVPR 2026 录用，为扩散模型 CFG 控制提供严谨控制论框架，在主流商用模型验证，直接可用。

工程借鉴

控制论视角重新设计 CFG 调度策略
滑模控制用于推理稳定性
Lyapunov 分析保证收敛

🧠 多模态视觉语言模型

7. 超越语言建模：多模态预训练的系统性探索

英文标题： Beyond Language Modeling: An Exploration of Multimodal Pretraining 发表状态： 预印本（Meta/NYU，含 LeCun、Saining Xie） 论文链接： arxiv.org/abs/2603.03276

核心创新点

首个严格控制变量的原生多模态模型从零预训练实验，剥离语言预训练干扰，清晰揭示多模态预训练设计空间的关键因素，为未来视觉基础模型设计提供实证依据。

为什么值得关注

顶级团队的系统性消融研究，澄清多模态预训练哪些要素真正重要，对自研多模态模型设计有直接指导价值。

工程借鉴

原生多模态预训练范式
视觉世界作为基础模型提升轴的方法论
从零训练的控制变量设计

8. UniG2U-Bench — 统一多模态模型是否真正提升了理解能力？

英文标题： UniG2U-Bench: Do Unified Models Advance Multimodal Understanding? 发表状态： 预印本 论文链接： arxiv.org/abs/2603.03241

核心创新点

首个系统评估生成是否提升理解的基准，7 大维度 30 子任务。评测 30+ 模型发现：统一模型通常弱于基础 VLM，GtA 推理通常降低性能；在空间智能、视觉幻觉、多轮推理等特定子任务上生成可持续提升理解。

为什么值得关注

回答了多模态统一模型设计的核心争议，帮助从业者明确在哪些场景下生成能力真正有用。

工程借鉴

生成-理解联合评测框架
任务特性分析指导统一模型设计取舍
高价值子任务识别方法论

9. MoD-DPO — 减轻全模态 LLM 跨模态幻觉

英文标题： MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs 发表状态： CVPR 2026 论文链接： arxiv.org/abs/2603.03192

核心创新点

提出模态解耦直接偏好优化（MoD-DPO），引入模态感知正则化项：对无关模态扰动保持不变性、对相关模态扰动保持敏感性。语言先验去偏罚项抑制纯文本幻觉。在多个音视频幻觉基准上优于现有 DPO 基线。

为什么值得关注

CVPR 2026 录用，有效解决全模态模型的跨模态幻觉问题，对工业级多模态模型对齐有直接借鉴意义。

工程借鉴

模态感知 DPO 正则化
模态不变性 / 敏感性双重约束
语言先验去偏设计

10. SpeciaRL — 面向细粒度开放世界分类的特异性感知强化学习

英文标题： SpeciaRL: Specificity-aware Reinforcement Learning for Fine-grained Open-world Classification 发表状态： CVPR 2026 论文链接： arxiv.org/abs/2603.03197

核心创新点

发现推理 LMM 具备细粒度知识但预测过于泛化。提出 SpeciaRL，用在线 rollout 内最优预测作为动态验证器奖励信号，在促进特异性的同时不牺牲正确性。开放世界零样本细粒度分类达到正确性-特异性最优权衡。

为什么值得关注

CVPR 2026 录用，用 RL 提升推理 LMM 的细粒度预测特异性，对商品识别 / 医学诊断等精细分类任务直接有用。

工程借鉴

动态验证器奖励信号设计
在线 rollout 最优预测作为参照
特异性与正确性双目标 RL

11. TRACE — 面向通用多模态检索的任务自适应推理与表征学习

英文标题： TRACE: Task-Adaptive Reasoning and Representation Learning for Universal Multimodal Retrieval 发表状态： 预印本 论文链接： arxiv.org/abs/2603.02929

核心创新点

统一生成式推理与判别式表征学习。先生成结构化 CoT 显式推理查询意图，再将推理轨迹压缩为紧凑嵌入。自动对复杂查询激活推理、简单查询绕过推理。M-BEIR 基准新 SOTA，强零样本跨域迁移性。

为什么值得关注

将推理链融入检索嵌入的创新方案，对电商 / 内容平台的复杂多模态搜索场景极具价值。

工程借鉴

CoT 推理 + 嵌入压缩两阶段设计
难度感知路由策略
推理链内化提升零样本迁移

🎬 视频生成 / 人体动作

12. MIBURI — 面向表达性交互手势生成

英文标题： MIBURI: Towards Expressive Interactive Gesture Synthesis 发表状态： CVPR 2026 论文链接： arxiv.org/abs/2603.03282

核心创新点

首个在线因果框架，实时生成与对话同步的全身手势和面部表情。使用分身体部位感知手势编解码器将运动编码为多级离散 token。二维因果自回归框架同时建模时序动态和部位级运动层次。辅助目标鼓励多样性并防止静态 pose 收敛。

为什么值得关注

CVPR 2026 录用，实时在线因果手势生成是 ECA / 数字人 / VR 交互的核心需求，工程价值突出。

工程借鉴

分身体部位运动编解码
二维因果自回归建模
实时手势-语音-文本对齐策略

13. DuoMo — 用于世界坐标系人体重建的双运动扩散模型

英文标题： DuoMo: Dual Motion Diffusion for World-Space Human Reconstruction 发表状态： CVPR 2026 论文链接： arxiv.org/abs/2603.03265

核心创新点

将运动学习分解为两个扩散模型：相机空间模型估计运动，世界空间模型提升并全局一致化。绕过参数化人体模型直接生成网格顶点。在 EMDB 上世界坐标误差降低 16%，RICH 数据集上降低 30%，同时保持低 foot skating。

为什么值得关注

CVPR 2026 录用，视频人体重建新 SOTA，双扩散分解思路对其他视频重建任务有通用借鉴价值。

工程借鉴

相机空间 / 世界空间解耦扩散模型
直接顶点生成替代参数化模型
噪声 / 不完整观测下的鲁棒性

14. Kling-MotionControl — 可灵运动控制技术报告

英文标题： Kling-MotionControl Technical Report 发表状态： 技术报告（快手可灵团队） 论文链接： arxiv.org/abs/2603.03160

核心创新点

统一 DiT 框架实现鲁棒高保真的人物动画，通过驱动视频向参考图像迁移运动动态。结合最新 DiT 生成模型与精细运动控制，支持复杂运动场景。

为什么值得关注

工业级可灵视频生成平台的官方技术报告，揭示商用视频生成系统工程细节，实用价值高。

工程借鉴

DiT 统一框架多任务设计
运动-外观解耦控制
大规模工业级视频生成工程实践

🔍 目标检测 / 异常检测

15. MoECLIP — 面向零样本异常检测的分 Patch 专家混合

英文标题： MoECLIP: Patch-Specialized Experts for Zero-shot Anomaly Detection 发表状态： CVPR 2026 论文链接： arxiv.org/abs/2603.03101

核心创新点

基于 MoE 架构为 CLIP 零样本异常检测实现 Patch 级适配，动态路由每个图像 Patch 到专属 LoRA 专家。FOFS 正交特征分离防止专家功能冗余。ETF loss 使专家输出形成最大等角表征。在 14 个工业 + 医疗数据集上超越 SOTA。

为什么值得关注

CVPR 2026 录用，MoE + LoRA 在 CLIP 异常检测的高效组合，工业质检 / 医疗 AI 落地价值高。

工程借鉴

Patch 级 MoE 路由设计
LoRA 专家的正交性约束
ETF 损失用于表征多样性

🤖 视觉-语言-动作模型

16. CoWVLA — 基于隐空间运动链的世界模型 VLA

英文标题： CoWVLA: World Model Thinking in Latent Motion for VLA 发表状态： CVPR 2026 论文链接： arxiv.org/abs/2603.03195

核心创新点

Chain-of-World 范式统一世界模型时序推理与解耦隐运动表征。预训练视频 VAE 显式分解结构与运动隐变量。VLA 从指令 + 初始帧推断连续隐运动链。联合微调将隐动态与离散动作预测对齐。在机器人仿真基准上超越现有世界模型和隐动作方法。

为什么值得关注

CVPR 2026 录用，机器人 VLA 前沿工作，隐运动链设计兼顾世界模型的时序推理与隐动作的紧凑性。

工程借鉴

结构-运动隐变量解耦
连续隐运动链建模
VLA 预训练范式与精调策略

本文由 AI 自动整理自 Arxiv 每日论文，如有疏漏欢迎指正。

📊 方向分布#

🧊 3D 视觉#

1. Utonia — 面向所有点云的统一编码器#

2. LoGeR — 基于混合记忆的长上下文几何重建#

3. RL3DEdit — 几何引导的强化学习用于多视图一致 3D 场景编辑#

4. VIRGi — 3D 高斯溅射的视角依赖即时重着色#

5. URGT — 任意分辨率任意几何：从多视角到多 Patch#

🎨 扩散模型 / 生成模型#

6. CFG-Ctrl — 基于控制理论的无分类器扩散引导#

🧠 多模态视觉语言模型#

7. 超越语言建模：多模态预训练的系统性探索#

8. UniG2U-Bench — 统一多模态模型是否真正提升了理解能力？#

9. MoD-DPO — 减轻全模态 LLM 跨模态幻觉#

10. SpeciaRL — 面向细粒度开放世界分类的特异性感知强化学习#

11. TRACE — 面向通用多模态检索的任务自适应推理与表征学习#

🎬 视频生成 / 人体动作#

12. MIBURI — 面向表达性交互手势生成#

13. DuoMo — 用于世界坐标系人体重建的双运动扩散模型#

14. Kling-MotionControl — 可灵运动控制技术报告#

🔍 目标检测 / 异常检测#

15. MoECLIP — 面向零样本异常检测的分 Patch 专家混合#

🤖 视觉-语言-动作模型#

16. CoWVLA — 基于隐空间运动链的世界模型 VLA#

📊 方向分布

🧊 3D 视觉

1. Utonia — 面向所有点云的统一编码器

2. LoGeR — 基于混合记忆的长上下文几何重建

3. RL3DEdit — 几何引导的强化学习用于多视图一致 3D 场景编辑

4. VIRGi — 3D 高斯溅射的视角依赖即时重着色

5. URGT — 任意分辨率任意几何：从多视角到多 Patch

🎨 扩散模型 / 生成模型

6. CFG-Ctrl — 基于控制理论的无分类器扩散引导

🧠 多模态视觉语言模型

7. 超越语言建模：多模态预训练的系统性探索

8. UniG2U-Bench — 统一多模态模型是否真正提升了理解能力？

9. MoD-DPO — 减轻全模态 LLM 跨模态幻觉

10. SpeciaRL — 面向细粒度开放世界分类的特异性感知强化学习

11. TRACE — 面向通用多模态检索的任务自适应推理与表征学习

🎬 视频生成 / 人体动作

12. MIBURI — 面向表达性交互手势生成

13. DuoMo — 用于世界坐标系人体重建的双运动扩散模型

14. Kling-MotionControl — 可灵运动控制技术报告

🔍 目标检测 / 异常检测

15. MoECLIP — 面向零样本异常检测的分 Patch 专家混合

🤖 视觉-语言-动作模型

16. CoWVLA — 基于隐空间运动链的世界模型 VLA