世界模型 | ElephantFlow's Blog

ArXiv 每日精选 · 2026-03-18

📅 本期精选来自 2026-03-18 ArXiv 最新论文，聚焦世界模型、视频生成、具身智能、机器人操作等核心方向，共 7 篇。 📄 论文精选 WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation 链接： https://arxiv.org/abs/2603.16871 一句话总结：以相机位姿为统一几何表示，构建可交互的自回归3D游戏世界模型，同时解决动作精确控制与长时程3D一致性两大核心难题。 ...

ArXiv 每日精选 · 2026-03-17

📅 本期精选来自 2026-03-17 ArXiv 最新论文，聚焦世界模型、视频生成、具身AI、扩散模型等核心方向，共 8 篇。 📄 论文精选 Seoul World Model: Grounding World Simulation Models in a Real-World Metropolis 链接： https://arxiv.org/abs/2603.15583 一句话总结：首个以真实城市（首尔）为锚点的大规模城市级世界模型 SWM，通过检索增强条件实现与现实环境真正对齐的长视野视频生成。 ...

ArXiv 每日精选 · 2026-03-16

📅 本期精选来自 2026-03-16 ArXiv 最新论文，聚焦扩散模型、世界模型、视频生成、具身AI等核心方向，共 8 篇。 📄 论文精选 PhysMoDPO: Physically-Plausible Humanoid Motion with Preference Optimization 链接： https://arxiv.org/abs/2603.13228 一句话总结：提出 PhysMoDPO 框架，将 Direct Preference Optimization 引入扩散模型训练，使文本驱动的人形动作生成在物理可行性和语义保真度上同时达到 SOTA，并在真实 G1 人形机器人上完成零样本迁移部署。 ...

ArXiv 每日精选 · 2026-03-13

📅 本期精选来自 2026-03-13 ArXiv 最新论文，聚焦扩散模型、具身智能、视频理解、机器人学习等核心方向，共 8 篇。 📄 论文精选 An Open Foundation Model Towards Universal Humanoid Loco-Manipulation 链接： https://arxiv.org/abs/2603.12263 一句话总结：提出 $\Psi_0$ 开源基础模型，使用分阶段训练策略解决人形机器人运动操纵任务，通过解耦学习过程最大化异构数据源的利用效果。 ...

ArXiv 每日精选 · 2026-03-10

📅 本期精选来自 2026-03-10 ArXiv 最新论文，聚焦世界模型、视频生成、扩散模型、具身AI等核心方向，共 8 篇。 📄 论文精选 Interactive World Simulator for Robot Policy Training and Evaluation 链接： https://arxiv.org/abs/2603.08546 一句话总结：基于一致性模型构建的交互式世界模型，能在单张 RTX 4090 上以 15 FPS 稳定运行超过 10 分钟，并支持使用世界模型生成的数据训练出媲美真实数据水平的模仿策略。 ...

ArXiv 每日精选 · 2026-03-08

📅 本期精选来自 2026-03-08 ArXiv 最新论文，聚焦世界模型、扩散模型、视频生成、具身AI等核心方向，共 8 篇。 📄 论文精选 RealWonder: Real-Time Physical Action-Conditioned Video Generation 链接： https://arxiv.org/abs/2603.05449 一句话总结：首个支持物理动作条件的实时视频生成系统，以物理仿真为桥梁，仅需 4 步扩散即可在 480×832 分辨率下达到 13.2 FPS。 ...

ArXiv 每日精选 · 2026-03-07

📅 本期精选来自 2026-03-07 ArXiv 最新论文，聚焦扩散模型、世界模型、视频生成、具身AI等核心方向，共 5 篇。 📄 论文精选 Accelerating Text-to-Video Generation with Calibrated Sparse Attention 链接： https://arxiv.org/abs/2603.05503 一句话总结：提出CalibAtt方法，通过离线校准识别可跨各种输入跳过的稳定块级稀疏性和重复模式，实现文本到视频生成的训练自由加速，同时保持视频生成质量和文本-视频对齐。 ...