论文精选 | ElephantFlow's Blog

ArXiv 每日精选 · 2026-03-08

📅 本期精选来自 2026-03-08 ArXiv 最新论文，聚焦世界模型、扩散模型、视频生成、具身AI等核心方向，共 8 篇。 📄 论文精选 RealWonder: Real-Time Physical Action-Conditioned Video Generation 链接： https://arxiv.org/abs/2603.05449 一句话总结：首个支持物理动作条件的实时视频生成系统，以物理仿真为桥梁，仅需 4 步扩散即可在 480×832 分辨率下达到 13.2 FPS。 ...

ArXiv 每日精选 · 2026-03-07

📅 本期精选来自 2026-03-07 ArXiv 最新论文，聚焦扩散模型、世界模型、视频生成、具身AI等核心方向，共 5 篇。 📄 论文精选 Accelerating Text-to-Video Generation with Calibrated Sparse Attention 链接： https://arxiv.org/abs/2603.05503 一句话总结：提出CalibAtt方法，通过离线校准识别可跨各种输入跳过的稳定块级稀疏性和重复模式，实现文本到视频生成的训练自由加速，同时保持视频生成质量和文本-视频对齐。 ...

ArXiv 每日精选 · 2026-03-06

📅 本期精选来自 2026-03-06 ArXiv 最新论文，聚焦视频生成、具身AI、机器人运动生成、多模态理解等核心方向，共 8 篇。 📄 论文精选 CalibAtt: Accelerating Text-to-Video Generation with Calibrated Sparse Attention 链接： https://arxiv.org/abs/2603.05503 一句话总结：提出一种无需训练的稀疏注意力加速方法，在不损失视频质量的前提下，将 Wan 2.1 14B 等主流视频生成模型的推理速度提升至多 1.58 倍。 ...

ArXiv 每日精选 · 2026-03-05

📅 本期精选来自 2026-03-05 ArXiv 最新论文，聚焦视频生成、扩散模型、具身AI、3D生成等核心方向，共 7 篇。 📄 论文精选 Helios: Real Real-Time Long Video Generation Model 链接： https://arxiv.org/abs/2603.04379 一句话总结： Helios 是首个在单张 H100 GPU 上以 19.5 FPS 实时生成分钟级视频的 14B 自回归扩散模型，同时保持与强基线相当的生成质量。 ...

Arxiv CV 每日精选 · 2026-03-04

本文精选 2026-03-04 Arxiv 计算机视觉方向高价值论文 16 篇，涵盖 3D 视觉、扩散模型、多模态大模型、视频生成等方向，附核心创新点与工程借鉴价值分析。 📊 方向分布细分方向论文数 3D 视觉 5 多模态视觉语言模型 5 视频生成 / 人体动作 3 扩散模型 / 生成模型 1 目标检测 / 异常检测 1 视觉-语言-动作模型 1 🧊 3D 视觉 1. Utonia — 面向所有点云的统一编码器英文标题： Toward One Encoder for All Point Clouds (Utonia) 发表状态： CVPR 2026 相关项目论文链接： arxiv.org/abs/2603.03283 ...