视觉语言模型

ArXiv 每日精选 · 2026-06-15

📅 本期精选来自 2026-06-15 ArXiv 最新论文，聚焦扩散模型、视频生成、具身AI、视觉语言模型等核心方向，共 8 篇。 📄 论文精选 RepFusion: Leveraging Multimodal Priors for Denoising in Representation Space 链接： https://arxiv.org/abs/2606.14700 一句话总结：将多模态大语言模型（MLLM）本身作为扩散 transformer 的条件信号，利用 MLLM 在噪声表示空间的输出引导 T2I 去噪过程，实现 LLM prior 的有效复用。 ...

ArXiv 每日精选 · 2026-05-24

📅 本期精选来自 2026-05-24 ArXiv 最新论文，聚焦世界模型、扩散模型、VLA 机器人、具身AI 等核心方向，共 8 篇。 📄 论文精选 WorldKV: Efficient World Memory with World Retrieval and Compression 链接： https://arxiv.org/abs/2605.22718 一句话总结：提出无需训练的世界模型持久记忆框架，通过选择性 KV-cache 检索与压缩，在维持世界一致性的同时实现约 2 倍推理吞吐提升。 ...

ArXiv 每日精选 · 2026-04-19

📅 本期精选来自 2026-04-19 ArXiv 最新论文（含近期重点论文），聚焦扩散模型、Flow Matching 稳定性、相机可控视频生成、文本驱动动作生成、视频编辑评测、3D 布局生成等核心方向，共 8 篇。 ...

ArXiv 每日精选 · 2026-03-31

📅 本期精选来自 2026-03-31 ArXiv 最新论文，聚焦扩散模型多样性、双手动作生成、机器人强化学习奖励、端侧生成模型等核心方向，共 7 篇。 📄 论文精选 HandX: Scaling Bimanual Motion and Interaction Generation 链接： https://arxiv.org/abs/2603.28766 ...

ArXiv 每日精选 · 2026-03-30

📅 本期精选来自 2026-03-30 ArXiv 最新论文，聚焦视频生成、扩散模型、动作生成、视觉语言模型等核心方向，共 7 篇。 📄 论文精选 Generation Is Compression: Zero-Shot Video Coding via Stochastic Rectified Flow 链接： https://arxiv.org/abs/2603.26571 一句话总结：将预训练视频生成模型直接用作视频编解码器，无需重训练，在 0.002 bpp 以下实现高质量视频压缩。 ...