ArXiv 每日精选 · 2026-03-08

📅 本期精选来自 2026-03-08 ArXiv 最新论文,聚焦世界模型、扩散模型、视频生成、具身AI等核心方向,共 8 篇。 📄 论文精选 RealWonder: Real-Time Physical Action-Conditioned Video Generation 链接: https://arxiv.org/abs/2603.05449 一句话总结: 首个支持物理动作条件的实时视频生成系统,以物理仿真为桥梁,仅需 4 步扩散即可在 480×832 分辨率下达到 13.2 FPS。 ...

2026年3月9日 · 10 分钟 · 4808 字 · elephantflow

ArXiv 每日精选 · 2026-03-07

📅 本期精选来自 2026-03-07 ArXiv 最新论文,聚焦扩散模型、世界模型、视频生成、具身AI等核心方向,共 5 篇。 📄 论文精选 Accelerating Text-to-Video Generation with Calibrated Sparse Attention 链接: https://arxiv.org/abs/2603.05503 一句话总结: 提出CalibAtt方法,通过离线校准识别可跨各种输入跳过的稳定块级稀疏性和重复模式,实现文本到视频生成的训练自由加速,同时保持视频生成质量和文本-视频对齐。 ...

2026年3月8日 · 7 分钟 · 3298 字 · elephantflow

ArXiv 每日精选 · 2026-03-06

📅 本期精选来自 2026-03-06 ArXiv 最新论文,聚焦视频生成、具身AI、机器人运动生成、多模态理解等核心方向,共 8 篇。 📄 论文精选 CalibAtt: Accelerating Text-to-Video Generation with Calibrated Sparse Attention 链接: https://arxiv.org/abs/2603.05503 一句话总结: 提出一种无需训练的稀疏注意力加速方法,在不损失视频质量的前提下,将 Wan 2.1 14B 等主流视频生成模型的推理速度提升至多 1.58 倍。 ...

2026年3月7日 · 11 分钟 · 5222 字 · elephantflow

ArXiv 每日精选 · 2026-03-05

📅 本期精选来自 2026-03-05 ArXiv 最新论文,聚焦视频生成、扩散模型、具身AI、3D生成等核心方向,共 7 篇。 📄 论文精选 Helios: Real Real-Time Long Video Generation Model 链接: https://arxiv.org/abs/2603.04379 一句话总结: Helios 是首个在单张 H100 GPU 上以 19.5 FPS 实时生成分钟级视频的 14B 自回归扩散模型,同时保持与强基线相当的生成质量。 ...

2026年3月6日 · 10 分钟 · 4971 字 · elephantflow

Arxiv CV 每日精选 · 2026-03-04

本文精选 2026-03-04 Arxiv 计算机视觉方向高价值论文 16 篇,涵盖 3D 视觉、扩散模型、多模态大模型、视频生成等方向,附核心创新点与工程借鉴价值分析。 📊 方向分布 细分方向 论文数 3D 视觉 5 多模态视觉语言模型 5 视频生成 / 人体动作 3 扩散模型 / 生成模型 1 目标检测 / 异常检测 1 视觉-语言-动作模型 1 🧊 3D 视觉 1. Utonia — 面向所有点云的统一编码器 英文标题: Toward One Encoder for All Point Clouds (Utonia) 发表状态: CVPR 2026 相关项目 论文链接: arxiv.org/abs/2603.03283 ...

2026年3月5日 · 8 分钟 · 3956 字 · elephantflow