ArXiv 每日精选 · 2026-06-15
📅 本期精选来自 2026-06-15 ArXiv 最新论文,聚焦扩散模型、视频生成、具身AI、视觉语言模型等核心方向,共 8 篇。 📄 论文精选 RepFusion: Leveraging Multimodal Priors for Denoising in Representation Space 链接: https://arxiv.org/abs/2606.14700 一句话总结: 将多模态大语言模型(MLLM)本身作为扩散 transformer 的条件信号,利用 MLLM 在噪声表示空间的输出引导 T2I 去噪过程,实现 LLM prior 的有效复用。 ...