ArXiv 每日精选 · 2026-05-16
今日论文精选 本期精选 10 篇 2026-05-16 ArXiv 最新论文,重点覆盖世界模型、视频生成、扩散模型与具身AI方向。 论文精选(按评分排序) 1. Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer 链接: https://arxiv.org/abs/2605.15178 一句话总结: NVIDIA 开源 2.6B 参数世界模型 SANA-WM,首次在单卡 RTX 5090 上实现 60 秒 720p 高保真视频生成,效率较同类工业基线提升 36 倍。 ...
ArXiv 每日精选 · 2026-04-23
📅 本期精选来自 2026-04-23 ArXiv 最新论文,聚焦世界模型、视频生成、具身AI、多模态等核心方向,共 8 篇。 📄 论文精选 Human-in-the-World-Model for Scalable Robot Post-Training 链接: https://arxiv.org/abs/2604.21741 一句话总结: 将世界模型作为可复用的"纠错底座",人类在模型内部做轨迹干预,替代真实机器人后训练中的物理执行环节。 ...
ArXiv 每日精选 · 2026-04-19
📅 本期精选来自 2026-04-19 ArXiv 最新论文(含近期重点论文),聚焦扩散模型、Flow Matching 稳定性、相机可控视频生成、文本驱动动作生成、视频编辑评测、3D 布局生成等核心方向,共 8 篇。 ...
ArXiv 每日精选 · 2026-04-15
📅 本期精选来自 2026-04-15 ArXiv 最新论文,聚焦世界模型、生成模型、具身AI与机器人操作等核心方向,共 8 篇。 📄 论文精选 Lyra 2.0: Explorable Generative 3D Worlds 链接: https://arxiv.org/abs/2604.13036 一句话总结: 提出可大规模探索的持久性 3D 世界生成框架,通过解决"空间遗忘"与"时序漂移"两大核心退化问题,实现长轨迹、高一致性的 3D 场景生成。 ...
ArXiv 每日精选 · 2026-04-14
📅 本期精选来自 2026-04-14 ArXiv 最新论文,聚焦扩散模型、世界模型、视频生成、具身AI等核心方向,共 7 篇。 📄 论文精选 Grounded World Model for Semantically Generalizable Planning 链接: https://arxiv.org/abs/2604.11751 一句话总结: 提出 Grounded World Model(GWM),在视觉-语言对齐的隐空间中学习世界模型,将基于图像目标的 visuomotor MPC 转化为语言条件下的 VLA,大幅提升语义泛化能力。 ...
ArXiv 每日精选 · 2026-04-13
📅 本期精选来自 2026-04-13 ArXiv 最新论文,聚焦世界模型、扩散模型、视频生成、具身AI等核心方向,共 7 篇。 📄 论文精选 Envisioning the Future, One Step at a Time 链接: https://arxiv.org/abs/2604.09527 一句话总结: 提出基于稀疏点轨迹的自回归扩散模型,以极低计算代价实现开放集场景未来动态预测,性能比肩甚至超越密集视频模拟器。 ...
ArXiv 每日精选 · 2026-04-12
📅 本期精选来自 2026-04-12 ArXiv 最新论文,聚焦视频生成、扩散模型、4D感知、多模态Agent等核心方向,共 8 篇。 📄 论文精选 NUMINA: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models 链接: https://arxiv.org/abs/2604.08546 一句话总结: 提出无需训练的"识别-引导"框架 NUMINA,系统性解决文本到视频扩散模型中数量描述与视觉实例不对齐的核心问题,CVPR 2026。 ...
ArXiv 每日精选 · 2026-04-11
📅 本期精选来自 2026-04-11 ArXiv 最新论文(提交于 2026-04-09),聚焦视频生成、扩散模型、4D 重建与具身多模态 AI 等核心方向,共 7 篇。 📄 论文精选 Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics 链接: https://arxiv.org/abs/2604.08503 ...
ArXiv 每日精选 · 2026-03-31
📅 本期精选来自 2026-03-31 ArXiv 最新论文,聚焦扩散模型多样性、双手动作生成、机器人强化学习奖励、端侧生成模型等核心方向,共 7 篇。 📄 论文精选 HandX: Scaling Bimanual Motion and Interaction Generation 链接: https://arxiv.org/abs/2603.28766 ...
ArXiv 每日精选 · 2026-03-30
📅 本期精选来自 2026-03-30 ArXiv 最新论文,聚焦视频生成、扩散模型、动作生成、视觉语言模型等核心方向,共 7 篇。 📄 论文精选 Generation Is Compression: Zero-Shot Video Coding via Stochastic Rectified Flow 链接: https://arxiv.org/abs/2603.26571 一句话总结: 将预训练视频生成模型直接用作视频编解码器,无需重训练,在 0.002 bpp 以下实现高质量视频压缩。 ...