ArXiv 每日精选 · 2026-05-16

今日论文精选 本期精选 10 篇 2026-05-16 ArXiv 最新论文,重点覆盖世界模型、视频生成、扩散模型与具身AI方向。 论文精选(按评分排序) 1. Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer 链接: https://arxiv.org/abs/2605.15178 一句话总结: NVIDIA 开源 2.6B 参数世界模型 SANA-WM,首次在单卡 RTX 5090 上实现 60 秒 720p 高保真视频生成,效率较同类工业基线提升 36 倍。 ...

2026年5月17日 · 11 分钟 · 5445 字 · elephantflow

ArXiv 每日精选 · 2026-04-23

📅 本期精选来自 2026-04-23 ArXiv 最新论文,聚焦世界模型、视频生成、具身AI、多模态等核心方向,共 8 篇。 📄 论文精选 Human-in-the-World-Model for Scalable Robot Post-Training 链接: https://arxiv.org/abs/2604.21741 一句话总结: 将世界模型作为可复用的"纠错底座",人类在模型内部做轨迹干预,替代真实机器人后训练中的物理执行环节。 ...

2026年4月24日 · 9 分钟 · 4236 字 · elephantflow

ArXiv 每日精选 · 2026-04-15

📅 本期精选来自 2026-04-15 ArXiv 最新论文,聚焦世界模型、生成模型、具身AI与机器人操作等核心方向,共 8 篇。 📄 论文精选 Lyra 2.0: Explorable Generative 3D Worlds 链接: https://arxiv.org/abs/2604.13036 一句话总结: 提出可大规模探索的持久性 3D 世界生成框架,通过解决"空间遗忘"与"时序漂移"两大核心退化问题,实现长轨迹、高一致性的 3D 场景生成。 ...

2026年4月16日 · 9 分钟 · 4239 字 · elephantflow

ArXiv 每日精选 · 2026-04-14

📅 本期精选来自 2026-04-14 ArXiv 最新论文,聚焦扩散模型、世界模型、视频生成、具身AI等核心方向,共 7 篇。 📄 论文精选 Grounded World Model for Semantically Generalizable Planning 链接: https://arxiv.org/abs/2604.11751 一句话总结: 提出 Grounded World Model(GWM),在视觉-语言对齐的隐空间中学习世界模型,将基于图像目标的 visuomotor MPC 转化为语言条件下的 VLA,大幅提升语义泛化能力。 ...

2026年4月15日 · 9 分钟 · 4164 字 · elephantflow

ArXiv 每日精选 · 2026-04-13

📅 本期精选来自 2026-04-13 ArXiv 最新论文,聚焦世界模型、扩散模型、视频生成、具身AI等核心方向,共 7 篇。 📄 论文精选 Envisioning the Future, One Step at a Time 链接: https://arxiv.org/abs/2604.09527 一句话总结: 提出基于稀疏点轨迹的自回归扩散模型,以极低计算代价实现开放集场景未来动态预测,性能比肩甚至超越密集视频模拟器。 ...

2026年4月14日 · 10 分钟 · 4702 字 · elephantflow

ArXiv 每日精选 · 2026-03-29

📅 本期精选来自 2026-03-29 ArXiv 最新论文,聚焦视频生成、世界模型、VLA具身智能、视频编辑等核心方向,共 8 篇。 📄 论文精选 ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling 链接: https://arxiv.org/abs/2603.25746 一句话总结: 提出因果多镜头视频生成架构 ShotStream,通过分布匹配蒸馏实现流式交互式故事叙述,单GPU推理速度达 16 FPS。 ...

2026年3月30日 · 11 分钟 · 5074 字 · elephantflow

ArXiv 每日精选 · 2026-03-28

📅 本期精选来自 2026-03-28 ArXiv 最新论文,聚焦视频生成、世界模型、扩散模型、具身AI等核心方向,共 8 篇。 📄 论文精选 PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference 链接: https://arxiv.org/abs/2603.25730 一句话总结: 通过三分区 KV-Cache 压缩策略和动态 top-k 上下文选取,仅用 5 秒短视频训练即可零样本外推到 2 分钟高质量视频生成,在单卡 H200 上实现 16FPS、KV Cache 仅 4GB。 ...

2026年3月29日 · 10 分钟 · 4721 字 · elephantflow

ArXiv 每日精选 · 2026-03-27

📅 本期精选来自 2026-03-27 ArXiv 最新论文,聚焦视频生成、世界模型、扩散模型、具身AI等核心方向,共 8 篇。 📄 论文精选 PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference 链接: https://arxiv.org/abs/2603.25730 一句话总结: 提出 PackForcing 框架,通过三分区 KV-cache 压缩策略,仅用5秒短视频训练即可在单张 H200 上生成2分钟高质量长视频,实现 24 倍时间外推。 ...

2026年3月28日 · 11 分钟 · 5326 字 · elephantflow

ArXiv 每日精选 · 2026-03-26

📅 本期精选来自 2026-03-26 ArXiv 最新论文,聚焦扩散模型、世界模型、视频生成、具身AI等核心方向,共 9 篇。 📄 论文精选 Polynomial Speedup in Diffusion Models with the Multilevel Euler-Maruyama Method 链接: https://arxiv.org/abs/2603.24594 一句话总结: 提出多层次 Euler-Maruyama(ML-EM)方法,在扩散模型采样中实现多项式级加速,将采样计算量压缩至等同于单次最大网络前向传播。 ...

2026年3月27日 · 12 分钟 · 5671 字 · elephantflow

ArXiv 每日精选 · 2026-03-25

📅 本期精选来自 2026-03-25 ArXiv 最新论文,聚焦世界模型、具身智能、扩散模型、视频生成等核心方向,共 8 篇。 📄 论文精选 ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment 链接: https://arxiv.org/abs/2603.23376 一句话总结: 提出 ABot-PhysWorld,一个 14B 扩散 Transformer 世界模型,通过物理对齐训练生成物理可信、动作可控的机器人操作视频,解决当前视频世界模型中物体穿透、反重力等物理不合理问题。 ...

2026年3月26日 · 10 分钟 · 4986 字 · elephantflow