ArXiv 每日精选 · 2026-03-27

📅 本期精选来自 2026-03-27 ArXiv 最新论文,聚焦视频生成、世界模型、扩散模型、具身AI等核心方向,共 8 篇。 📄 论文精选 PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference 链接: https://arxiv.org/abs/2603.25730 一句话总结: 提出 PackForcing 框架,通过三分区 KV-cache 压缩策略,仅用5秒短视频训练即可在单张 H200 上生成2分钟高质量长视频,实现 24 倍时间外推。 ...

2026年3月28日 · 11 分钟 · 5326 字 · elephantflow

ArXiv 每日精选 · 2026-03-24

📅 本期精选来自 2026-03-24 ArXiv 最新论文(提交于 2026-03-23),聚焦世界模型、扩散模型、运动生成、具身AI与机器人等核心方向,共 8 篇。 📄 论文精选 UniMotion: A Unified Framework for Motion-Text-Vision Understanding and Generation 链接: https://arxiv.org/abs/2603.22282 ...

2026年3月25日 · 12 分钟 · 5681 字 · elephantflow

ArXiv 每日精选 · 2026-03-23

📅 本期精选来自 2026-03-23 ArXiv 最新论文,聚焦扩散模型、世界模型、视频生成、具身AI等核心方向,共 7 篇。 📄 论文精选 LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation 链接: https://arxiv.org/abs/2603.20192 一句话总结: 提出 LumosX 框架,通过关系自注意力机制实现多身份属性精确对齐的个性化视频生成,在精细粒度身份一致性上达到 SOTA,被 ICLR 2026 收录。 ...

2026年3月24日 · 11 分钟 · 5179 字 · elephantflow

ArXiv 每日精选 · 2026-03-19

📅 本期精选来自 2026-03-19 ArXiv 最新论文,聚焦视频世界模型、扩散模型、视频生成、具身AI等核心方向,共 8 篇。 📄 论文精选 Aligning Video World Models with Executable Robot Actions via Inverse Dynamics Rewards 链接: https://arxiv.org/abs/2603.17808 一句话总结: 提出 EVA 框架,通过逆动力学模型作为奖励信号对视频世界模型进行强化学习后训练,弥合视觉生成与机器人可执行控制之间的"可执行性鸿沟"。 ...

2026年3月20日 · 11 分钟 · 5137 字 · elephantflow

ArXiv 每日精选 · 2026-03-18

📅 本期精选来自 2026-03-18 ArXiv 最新论文,聚焦世界模型、视频生成、具身智能、机器人操作等核心方向,共 7 篇。 📄 论文精选 WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation 链接: https://arxiv.org/abs/2603.16871 一句话总结: 以相机位姿为统一几何表示,构建可交互的自回归3D游戏世界模型,同时解决动作精确控制与长时程3D一致性两大核心难题。 ...

2026年3月19日 · 11 分钟 · 5166 字 · elephantflow

ArXiv 每日精选 · 2026-03-15

📅 本期精选来自 2026-03-15 ArXiv 最新论文,聚焦具身智能、视频生成与理解、扩散模型可控性、流式空间感知等核心方向,共 8 篇。 📄 论文精选 Ψ₀ (Psi-Zero): An Open Foundation Model Towards Universal Humanoid Loco-Manipulation 链接: https://arxiv.org/abs/2603.12263 ...

2026年3月16日 · 11 分钟 · 5181 字 · elephantflow

ArXiv 每日精选 · 2026-03-13

📅 本期精选来自 2026-03-13 ArXiv 最新论文,聚焦扩散模型、具身智能、视频理解、机器人学习等核心方向,共 8 篇。 📄 论文精选 An Open Foundation Model Towards Universal Humanoid Loco-Manipulation 链接: https://arxiv.org/abs/2603.12263 一句话总结: 提出 $\Psi_0$ 开源基础模型,使用分阶段训练策略解决人形机器人运动操纵任务,通过解耦学习过程最大化异构数据源的利用效果。 ...

2026年3月14日 · 8 分钟 · 3905 字 · elephantflow

ArXiv 每日精选 · 2026-03-10

📅 本期精选来自 2026-03-10 ArXiv 最新论文,聚焦世界模型、视频生成、扩散模型、具身AI等核心方向,共 8 篇。 📄 论文精选 Interactive World Simulator for Robot Policy Training and Evaluation 链接: https://arxiv.org/abs/2603.08546 一句话总结: 基于一致性模型构建的交互式世界模型,能在单张 RTX 4090 上以 15 FPS 稳定运行超过 10 分钟,并支持使用世界模型生成的数据训练出媲美真实数据水平的模仿策略。 ...

2026年3月11日 · 10 分钟 · 4886 字 · elephantflow

ArXiv 每日精选 · 2026-03-06

📅 本期精选来自 2026-03-06 ArXiv 最新论文,聚焦视频生成、具身AI、机器人运动生成、多模态理解等核心方向,共 8 篇。 📄 论文精选 CalibAtt: Accelerating Text-to-Video Generation with Calibrated Sparse Attention 链接: https://arxiv.org/abs/2603.05503 一句话总结: 提出一种无需训练的稀疏注意力加速方法,在不损失视频质量的前提下,将 Wan 2.1 14B 等主流视频生成模型的推理速度提升至多 1.58 倍。 ...

2026年3月7日 · 11 分钟 · 5222 字 · elephantflow