ArXiv 每日精选 · 2026-04-12
📅 本期精选来自 2026-04-12 ArXiv 最新论文,聚焦视频生成、扩散模型、4D感知、多模态Agent等核心方向,共 8 篇。 📄 论文精选 NUMINA: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models 链接: https://arxiv.org/abs/2604.08546 一句话总结: 提出无需训练的"识别-引导"框架 NUMINA,系统性解决文本到视频扩散模型中数量描述与视觉实例不对齐的核心问题,CVPR 2026。 ...