ArXiv 每日精选 · 2026-03-21

📅 本期精选来自 2026-03-21 ArXiv 最新论文,聚焦扩散模型、具身智能(VLA)、3D 场景感知、视觉语言模型等核心方向,共 7 篇。 📄 论文精选 Not All Features Are Created Equal: A Mechanistic Study of Vision-Language-Action Models 链接: https://arxiv.org/abs/2603.19233 ...

2026年3月22日 · 11 分钟 · 5286 字 · elephantflow

ArXiv 每日精选 · 2026-03-20

📅 本期精选来自 2026-03-20 ArXiv 最新论文,聚焦离散生成模型、运动生成、视频编辑、具身 AI 与 VLA 可解释性等核心方向,共 8 篇。 📄 论文精选 CubiD: Discrete Visual Generation on High-Dimensional Representation Tokens 链接: https://arxiv.org/abs/2603.19232 一句话总结: 首个在高维(768–1024 维)预训练表示上实现离散生成的模型,打破了离散生成只能用低维 token(8–32 维)的瓶颈,同时让同一套 token 兼顾理解与生成任务。 ...

2026年3月21日 · 11 分钟 · 5414 字 · elephantflow

ArXiv 每日精选 · 2026-03-19

📅 本期精选来自 2026-03-19 ArXiv 最新论文,聚焦视频世界模型、扩散模型、视频生成、具身AI等核心方向,共 8 篇。 📄 论文精选 Aligning Video World Models with Executable Robot Actions via Inverse Dynamics Rewards 链接: https://arxiv.org/abs/2603.17808 一句话总结: 提出 EVA 框架,通过逆动力学模型作为奖励信号对视频世界模型进行强化学习后训练,弥合视觉生成与机器人可执行控制之间的"可执行性鸿沟"。 ...

2026年3月20日 · 11 分钟 · 5137 字 · elephantflow

ArXiv 每日精选 · 2026-03-17

📅 本期精选来自 2026-03-17 ArXiv 最新论文,聚焦世界模型、视频生成、具身AI、扩散模型等核心方向,共 8 篇。 📄 论文精选 Seoul World Model: Grounding World Simulation Models in a Real-World Metropolis 链接: https://arxiv.org/abs/2603.15583 一句话总结: 首个以真实城市(首尔)为锚点的大规模城市级世界模型 SWM,通过检索增强条件实现与现实环境真正对齐的长视野视频生成。 ...

2026年3月18日 · 11 分钟 · 5171 字 · elephantflow

ArXiv 每日精选 · 2026-03-16

📅 本期精选来自 2026-03-16 ArXiv 最新论文,聚焦扩散模型、世界模型、视频生成、具身AI等核心方向,共 8 篇。 📄 论文精选 PhysMoDPO: Physically-Plausible Humanoid Motion with Preference Optimization 链接: https://arxiv.org/abs/2603.13228 一句话总结: 提出 PhysMoDPO 框架,将 Direct Preference Optimization 引入扩散模型训练,使文本驱动的人形动作生成在物理可行性和语义保真度上同时达到 SOTA,并在真实 G1 人形机器人上完成零样本迁移部署。 ...

2026年3月17日 · 11 分钟 · 5154 字 · elephantflow

ArXiv 每日精选 · 2026-03-15

📅 本期精选来自 2026-03-15 ArXiv 最新论文,聚焦具身智能、视频生成与理解、扩散模型可控性、流式空间感知等核心方向,共 8 篇。 📄 论文精选 Ψ₀ (Psi-Zero): An Open Foundation Model Towards Universal Humanoid Loco-Manipulation 链接: https://arxiv.org/abs/2603.12263 ...

2026年3月16日 · 11 分钟 · 5181 字 · elephantflow

ArXiv 每日精选 · 2026-03-13

📅 本期精选来自 2026-03-13 ArXiv 最新论文,聚焦扩散模型、具身智能、视频理解、机器人学习等核心方向,共 8 篇。 📄 论文精选 An Open Foundation Model Towards Universal Humanoid Loco-Manipulation 链接: https://arxiv.org/abs/2603.12263 一句话总结: 提出 $\Psi_0$ 开源基础模型,使用分阶段训练策略解决人形机器人运动操纵任务,通过解耦学习过程最大化异构数据源的利用效果。 ...

2026年3月14日 · 8 分钟 · 3905 字 · elephantflow

ArXiv 每日精选 · 2026-03-10

📅 本期精选来自 2026-03-10 ArXiv 最新论文,聚焦世界模型、视频生成、扩散模型、具身AI等核心方向,共 8 篇。 📄 论文精选 Interactive World Simulator for Robot Policy Training and Evaluation 链接: https://arxiv.org/abs/2603.08546 一句话总结: 基于一致性模型构建的交互式世界模型,能在单张 RTX 4090 上以 15 FPS 稳定运行超过 10 分钟,并支持使用世界模型生成的数据训练出媲美真实数据水平的模仿策略。 ...

2026年3月11日 · 10 分钟 · 4886 字 · elephantflow

ArXiv 每日精选 · 2026-03-09

📅 本期精选来自 2026-03-09 ArXiv 最新论文(主要为 2026-03-06 提交),聚焦扩散模型、视频生成、机器人、视觉语言模型等核心方向,共 8 篇。 📄 论文精选 Physical Simulator In-the-Loop Video Generation 链接: https://arxiv.org/abs/2603.06408 一句话总结: 将物理仿真器嵌入扩散视频生成流程(PSIVG),使生成视频在对象动力学上严格遵守真实物理定律,被 CVPR 2026 接收。 ...

2026年3月10日 · 13 分钟 · 6371 字 · elephantflow

ArXiv 每日精选 · 2026-03-08

📅 本期精选来自 2026-03-08 ArXiv 最新论文,聚焦世界模型、扩散模型、视频生成、具身AI等核心方向,共 8 篇。 📄 论文精选 RealWonder: Real-Time Physical Action-Conditioned Video Generation 链接: https://arxiv.org/abs/2603.05449 一句话总结: 首个支持物理动作条件的实时视频生成系统,以物理仿真为桥梁,仅需 4 步扩散即可在 480×832 分辨率下达到 13.2 FPS。 ...

2026年3月9日 · 10 分钟 · 4808 字 · elephantflow