ArXiv 每日精选 · 2026-04-12

📅 本期精选来自 2026-04-12 ArXiv 最新论文,聚焦视频生成、扩散模型、4D感知、多模态Agent等核心方向,共 8 篇。 📄 论文精选 NUMINA: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models 链接: https://arxiv.org/abs/2604.08546 一句话总结: 提出无需训练的"识别-引导"框架 NUMINA,系统性解决文本到视频扩散模型中数量描述与视觉实例不对齐的核心问题,CVPR 2026。 ...

2026年4月13日 · 11 分钟 · 5118 字 · elephantflow

ArXiv 每日精选 · 2026-04-11

📅 本期精选来自 2026-04-11 ArXiv 最新论文(提交于 2026-04-09),聚焦视频生成、扩散模型、4D 重建与具身多模态 AI 等核心方向,共 7 篇。 📄 论文精选 Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics 链接: https://arxiv.org/abs/2604.08503 ...

2026年4月12日 · 10 分钟 · 4796 字 · elephantflow

ArXiv 每日精选 · 2026-03-06

📅 本期精选来自 2026-03-06 ArXiv 最新论文,聚焦视频生成、具身AI、机器人运动生成、多模态理解等核心方向,共 8 篇。 📄 论文精选 CalibAtt: Accelerating Text-to-Video Generation with Calibrated Sparse Attention 链接: https://arxiv.org/abs/2603.05503 一句话总结: 提出一种无需训练的稀疏注意力加速方法,在不损失视频质量的前提下,将 Wan 2.1 14B 等主流视频生成模型的推理速度提升至多 1.58 倍。 ...

2026年3月7日 · 11 分钟 · 5222 字 · elephantflow