视频生成 | ElephantFlow's Blog

ArXiv 每日精选 · 2026-06-10

📅 本期精选来自 2026-06-10 ArXiv 最新论文，聚焦世界模型、扩散模型蒸馏、视频生成、具身 AI 等核心方向，共 10 篇。 📄 论文精选 Next Forcing: Causal World Modeling with Multi-Chunk Prediction 链接： https://arxiv.org/abs/2606.11187 一句话总结：提出多块预测（MCP）训练目标，同时预测多个未来视频块，在加速自回归世界模型训练收敛的同时实现 2x 推理加速，在 RoboTwin 基准达到新 SOTA。 ...

ArXiv 每日精选 · 2026-06-09

📅 本期精选来自 2026-06-09 ArXiv 最新论文，聚焦世界模型、扩散模型、具身AI等核心方向，共 7 篇。 📄 论文精选 Latent Spatial Memory for Video World Models 链接： https://arxiv.org/abs/2606.09828 一句话总结：提出 Mirage 框架，将视频世界模型的空间记忆直接存储在扩散模型的 latent 空间中，彻底消除 pixel-space 重建的信息损失，实现 SOTA 性能与 10x 生成加速。 ...

ArXiv 每日精选 · 2026-06-08

📅 本期精选来自 2026-06-08 ArXiv 最新论文，聚焦扩散模型、世界模型、视频生成、具身AI等核心方向，共 8 篇。 📄 论文精选 AsyncPatch Diffusion: spatially-flexible image generation 链接： https://arxiv.org/abs/2606.07079 一句话总结：提出异步 Patch 扩散框架，打破标准扩散模型中所有空间区域必须共享同一噪声水平的约束，实现空间异质去噪轨迹，并给出首个合法的 ELBO 证明。 ...

ArXiv 每日精选 · 2026-06-07

📅 本期精选来自 2026-06-07 ArXiv 最新论文，聚焦扩散模型、世界模型、视频生成、具身AI等核心方向，共 8 篇。 📄 论文精选 Thinking with Imagination: Agentic Visual Spatial Reasoning with World Simulators 链接： https://arxiv.org/abs/2606.06476 一句话总结：提出 Astra 框架，让 VLM 在推理时通过与世界模拟器交互主动获取"想象视觉证据"，显著提升空间推理能力。 ...

ArXiv 每日精选 · 2026-06-06

📅 本期精选来自 2026-06-06 ArXiv 最新论文，聚焦扩散模型、世界模型、视频生成、具身AI等核心方向，共 7 篇。 📄 论文精选 Thinking with Imagination: Agentic Visual Spatial Reasoning with World Simulators 链接： https://arxiv.org/abs/2606.06476 一句话总结：提出 Astra 框架，让 VLM 在推理过程中主动调用世界模拟器生成想象视觉证据，实现真正的具身空间推理。 ...

ArXiv 每日精选 · 2026-06-05

📅 本期精选来自 2026-06-05 ArXiv 最新论文，聚焦世界模型、具身AI、视频生成、扩散模型等核心方向，共 8 篇。 📄 论文精选 World-Language-Action Model for Unified World Modeling, Language Reasoning, and Action Synthesis 链接： https://arxiv.org/abs/2606.05979 一句话总结：提出 WLA（World-Language-Action）模型，将世界建模（视频预测）、语言推理与机器人动作生成整合到单一自回归 Transformer 框架中，2B 参数原型 WLA-0 在 RoboTwin2.0 上达到 92.94% 成功率。 ...

ArXiv 每日精选 · 2026-06-04

📅 本期精选来自 2026-06-04 ArXiv 最新论文，聚焦具身智能、世界模型、Flow Matching、VLA、3D生成与扩散模型等核心方向，共 7 篇。 📄 论文精选 GRAIL: Generating Humanoid Loco-Manipulation from 3D Assets and Video Priors 链接： https://arxiv.org/abs/2606.05160 ...

ArXiv 每日精选 · 2026-06-03

📅 本期精选来自 2026-06-03 ArXiv 最新论文，聚焦视频生成、具身智能、机器人+生成模型、多模态理解等核心方向，共 8 篇。 📄 论文精选 Humanoid-GPT: Scaling Data and Structure for Zero-Shot Motion Tracking 链接： https://arxiv.org/abs/2606.03985 一句话总结：在 20 亿帧动捕数据上预训练 GPT 风格 Transformer，实现人形机器人全身运动追踪的零样本泛化，刷新性能上限。 ...

ArXiv 每日精选 · 2026-06-02

📅 本期精选来自 2026-06-02 ArXiv 最新论文，聚焦世界模型、视频生成、具身智能、机器人操作等核心方向，共 9 篇。 📄 论文精选 From Zero to Hero: Training-Free Custom Concept Spawning in World Models 链接： https://arxiv.org/abs/2606.02575 一句话总结：提出 SPAWN，一种免训练的方法，可将用户指定的视觉概念（角色、道具、建筑等）无缝注入自回归世界模型，无需任何微调。 ...

ArXiv 每日精选 · 2026-06-01

📅 本期精选来自 2026-06-01 ArXiv 最新论文，聚焦扩散模型、世界模型、视频生成、具身AI等核心方向，共 8 篇。 📄 论文精选 Towards Minute-Long Consistent World Generation with Decoupled Memory 链接： https://arxiv.org/abs/2605.31336 一句话总结：提出 DecMem——解耦记忆架构，通过稀疏全局记忆与锚定局部记忆的组合，实现分钟级别的高保真、高一致性可控视频生成，直接推进世界模型的长时序能力边界。 ...