ArXiv 每日精选 · 2026-03-23

📅 本期精选来自 2026-03-23 ArXiv 最新论文,聚焦扩散模型、世界模型、视频生成、具身AI等核心方向,共 7 篇。 📄 论文精选 LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation 链接: https://arxiv.org/abs/2603.20192 一句话总结: 提出 LumosX 框架,通过关系自注意力机制实现多身份属性精确对齐的个性化视频生成,在精细粒度身份一致性上达到 SOTA,被 ICLR 2026 收录。 ...

2026年3月24日 · 11 分钟 · 5179 字 · elephantflow

ArXiv 每日精选 · 2026-03-22

📅 本期精选来自 2026-03-22 ArXiv 最新论文,聚焦扩散模型、具身智能、动作生成、视频生成与编辑等核心方向,共 8 篇。 📄 论文精选 VEGA-3D: Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding 链接: https://arxiv.org/abs/2603.19235 一句话总结: 将预训练视频扩散模型重新定位为"隐式空间编码器",通过提取其中间层特征增强多模态大模型的几何感知与具身操控能力。 ...

2026年3月23日 · 10 分钟 · 4637 字 · elephantflow

ArXiv 每日精选 · 2026-03-21

📅 本期精选来自 2026-03-21 ArXiv 最新论文,聚焦扩散模型、具身智能(VLA)、3D 场景感知、视觉语言模型等核心方向,共 7 篇。 📄 论文精选 Not All Features Are Created Equal: A Mechanistic Study of Vision-Language-Action Models 链接: https://arxiv.org/abs/2603.19233 ...

2026年3月22日 · 11 分钟 · 5286 字 · elephantflow

ArXiv 每日精选 · 2026-03-20

📅 本期精选来自 2026-03-20 ArXiv 最新论文,聚焦离散生成模型、运动生成、视频编辑、具身 AI 与 VLA 可解释性等核心方向,共 8 篇。 📄 论文精选 CubiD: Discrete Visual Generation on High-Dimensional Representation Tokens 链接: https://arxiv.org/abs/2603.19232 一句话总结: 首个在高维(768–1024 维)预训练表示上实现离散生成的模型,打破了离散生成只能用低维 token(8–32 维)的瓶颈,同时让同一套 token 兼顾理解与生成任务。 ...

2026年3月21日 · 11 分钟 · 5414 字 · elephantflow

ArXiv 每日精选 · 2026-03-19

📅 本期精选来自 2026-03-19 ArXiv 最新论文,聚焦视频世界模型、扩散模型、视频生成、具身AI等核心方向,共 8 篇。 📄 论文精选 Aligning Video World Models with Executable Robot Actions via Inverse Dynamics Rewards 链接: https://arxiv.org/abs/2603.17808 一句话总结: 提出 EVA 框架,通过逆动力学模型作为奖励信号对视频世界模型进行强化学习后训练,弥合视觉生成与机器人可执行控制之间的"可执行性鸿沟"。 ...

2026年3月20日 · 11 分钟 · 5137 字 · elephantflow

ArXiv 每日精选 · 2026-03-18

📅 本期精选来自 2026-03-18 ArXiv 最新论文,聚焦世界模型、视频生成、具身智能、机器人操作等核心方向,共 7 篇。 📄 论文精选 WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation 链接: https://arxiv.org/abs/2603.16871 一句话总结: 以相机位姿为统一几何表示,构建可交互的自回归3D游戏世界模型,同时解决动作精确控制与长时程3D一致性两大核心难题。 ...

2026年3月19日 · 11 分钟 · 5166 字 · elephantflow

ArXiv 每日精选 · 2026-03-17

📅 本期精选来自 2026-03-17 ArXiv 最新论文,聚焦世界模型、视频生成、具身AI、扩散模型等核心方向,共 8 篇。 📄 论文精选 Seoul World Model: Grounding World Simulation Models in a Real-World Metropolis 链接: https://arxiv.org/abs/2603.15583 一句话总结: 首个以真实城市(首尔)为锚点的大规模城市级世界模型 SWM,通过检索增强条件实现与现实环境真正对齐的长视野视频生成。 ...

2026年3月18日 · 11 分钟 · 5171 字 · elephantflow

ArXiv 每日精选 · 2026-03-16

📅 本期精选来自 2026-03-16 ArXiv 最新论文,聚焦扩散模型、世界模型、视频生成、具身AI等核心方向,共 8 篇。 📄 论文精选 PhysMoDPO: Physically-Plausible Humanoid Motion with Preference Optimization 链接: https://arxiv.org/abs/2603.13228 一句话总结: 提出 PhysMoDPO 框架,将 Direct Preference Optimization 引入扩散模型训练,使文本驱动的人形动作生成在物理可行性和语义保真度上同时达到 SOTA,并在真实 G1 人形机器人上完成零样本迁移部署。 ...

2026年3月17日 · 11 分钟 · 5154 字 · elephantflow

ArXiv 每日精选 · 2026-03-15

📅 本期精选来自 2026-03-15 ArXiv 最新论文,聚焦具身智能、视频生成与理解、扩散模型可控性、流式空间感知等核心方向,共 8 篇。 📄 论文精选 Ψ₀ (Psi-Zero): An Open Foundation Model Towards Universal Humanoid Loco-Manipulation 链接: https://arxiv.org/abs/2603.12263 ...

2026年3月16日 · 11 分钟 · 5181 字 · elephantflow

ArXiv 每日精选 · 2026-03-13

📅 本期精选来自 2026-03-13 ArXiv 最新论文,聚焦扩散模型、具身智能、视频理解、机器人学习等核心方向,共 8 篇。 📄 论文精选 An Open Foundation Model Towards Universal Humanoid Loco-Manipulation 链接: https://arxiv.org/abs/2603.12263 一句话总结: 提出 $\Psi_0$ 开源基础模型,使用分阶段训练策略解决人形机器人运动操纵任务,通过解耦学习过程最大化异构数据源的利用效果。 ...

2026年3月14日 · 8 分钟 · 3905 字 · elephantflow