ArXiv 每日精选 · 2026-06-15

📅 本期精选来自 2026-06-15 ArXiv 最新论文,聚焦扩散模型、视频生成、具身AI、视觉语言模型等核心方向,共 8 篇。 📄 论文精选 RepFusion: Leveraging Multimodal Priors for Denoising in Representation Space 链接: https://arxiv.org/abs/2606.14700 一句话总结: 将多模态大语言模型(MLLM)本身作为扩散 transformer 的条件信号,利用 MLLM 在噪声表示空间的输出引导 T2I 去噪过程,实现 LLM prior 的有效复用。 ...

2026年6月16日 · 11 分钟 · 5137 字 · elephantflow

ArXiv 每日精选 · 2026-05-24

📅 本期精选来自 2026-05-24 ArXiv 最新论文,聚焦世界模型、扩散模型、VLA 机器人、具身AI 等核心方向,共 8 篇。 📄 论文精选 WorldKV: Efficient World Memory with World Retrieval and Compression 链接: https://arxiv.org/abs/2605.22718 一句话总结: 提出无需训练的世界模型持久记忆框架,通过选择性 KV-cache 检索与压缩,在维持世界一致性的同时实现约 2 倍推理吞吐提升。 ...

2026年5月25日 · 10 分钟 · 4626 字 · elephantflow

ArXiv 每日精选 · 2026-04-19

📅 本期精选来自 2026-04-19 ArXiv 最新论文(含近期重点论文),聚焦扩散模型、Flow Matching 稳定性、相机可控视频生成、文本驱动动作生成、视频编辑评测、3D 布局生成等核心方向,共 8 篇。 ...

2026年4月20日 · 9 分钟 · 4363 字 · elephantflow

ArXiv 每日精选 · 2026-03-31

📅 本期精选来自 2026-03-31 ArXiv 最新论文,聚焦扩散模型多样性、双手动作生成、机器人强化学习奖励、端侧生成模型等核心方向,共 7 篇。 📄 论文精选 HandX: Scaling Bimanual Motion and Interaction Generation 链接: https://arxiv.org/abs/2603.28766 ...

2026年4月1日 · 10 分钟 · 4948 字 · elephantflow

ArXiv 每日精选 · 2026-03-30

📅 本期精选来自 2026-03-30 ArXiv 最新论文,聚焦视频生成、扩散模型、动作生成、视觉语言模型等核心方向,共 7 篇。 📄 论文精选 Generation Is Compression: Zero-Shot Video Coding via Stochastic Rectified Flow 链接: https://arxiv.org/abs/2603.26571 一句话总结: 将预训练视频生成模型直接用作视频编解码器,无需重训练,在 0.002 bpp 以下实现高质量视频压缩。 ...

2026年3月31日 · 9 分钟 · 4286 字 · elephantflow