多模态 | ElephantFlow's Blog

ArXiv 每日精选 · 2026-06-27

📅 本期精选来自 2026-06-27 ArXiv 最新论文，聚焦扩散模型、世界模型、视频生成、具身AI等核心方向，共 10 篇。 📄 论文精选 DanceOPD: On-Policy Generative Field Distillation 链接： https://arxiv.org/abs/2606.27377 一句话总结：提出基于 on-policy 策略的生成场蒸馏框架，在 flow-matching 模型中统一 T2I、局部编辑与全局编辑等多种能力，通过将每个样本路由到单一能力场并以速度 MSE 目标训练，实现多能力组合而不牺牲基础生成质量。 ...

ArXiv 每日精选 · 2026-06-01

📅 本期精选来自 2026-06-01 ArXiv 最新论文，聚焦扩散模型、世界模型、视频生成、具身AI等核心方向，共 8 篇。 📄 论文精选 Towards Minute-Long Consistent World Generation with Decoupled Memory 链接： https://arxiv.org/abs/2605.31336 一句话总结：提出 DecMem——解耦记忆架构，通过稀疏全局记忆与锚定局部记忆的组合，实现分钟级别的高保真、高一致性可控视频生成，直接推进世界模型的长时序能力边界。 ...

ArXiv 每日精选 · 2026-04-12

📅 本期精选来自 2026-04-12 ArXiv 最新论文，聚焦视频生成、扩散模型、4D感知、多模态Agent等核心方向，共 8 篇。 📄 论文精选 NUMINA: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models 链接： https://arxiv.org/abs/2604.08546 一句话总结：提出无需训练的"识别-引导"框架 NUMINA，系统性解决文本到视频扩散模型中数量描述与视觉实例不对齐的核心问题，CVPR 2026。 ...

ArXiv 每日精选 · 2026-04-11

📅 本期精选来自 2026-04-11 ArXiv 最新论文（提交于 2026-04-09），聚焦视频生成、扩散模型、4D 重建与具身多模态 AI 等核心方向，共 7 篇。 📄 论文精选 Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics 链接： https://arxiv.org/abs/2604.08503 ...

ArXiv 每日精选 · 2026-03-06

📅 本期精选来自 2026-03-06 ArXiv 最新论文，聚焦视频生成、具身AI、机器人运动生成、多模态理解等核心方向，共 8 篇。 📄 论文精选 CalibAtt: Accelerating Text-to-Video Generation with Calibrated Sparse Attention 链接： https://arxiv.org/abs/2603.05503 一句话总结：提出一种无需训练的稀疏注意力加速方法，在不损失视频质量的前提下，将 Wan 2.1 14B 等主流视频生成模型的推理速度提升至多 1.58 倍。 ...