2025_NIPS_Image as a World: Generating Interactive World from Single Image via Panoramic Video Gener

张开发
2026/4/22 2:24:14 15 分钟阅读

分享文章

2025_NIPS_Image as a World: Generating Interactive World from Single Image via Panoramic Video Gener
文章核心内容与创新点总结一、主要内容本文提出了一种名为Image as a World(IaaW)的统一框架,旨在从单张图像生成可交互、时间上可延续的360度全景视频。该框架通过三阶段生成流程,解决了单图像输入下全景世界构建的空间完整性、视角可控性和时间一致性问题,具体包括:世界初始化(World Initialization):基于单张输入图像,联合生成空间完整且时间动态的全景视频,为后续阶段奠定时空基础;世界探索(World Exploration):支持用户指定视角旋转,将视角变化建模为动作,实现交互式导航;世界延续(World Continuation):在保持时间一致性的前提下,将生成的场景向时间维度延伸,支持无限扩展。为支撑该流程,研究设计了基于生成扩散模型的视觉世界模型,融入球面3D位置编码和多视角合成技术,同时微调了视觉语言模型(IaaW-VLM)以生成全局和视角特定提示词,提升语义对齐度与可控性。实验通过与现有基线模型(如FETA、360I2V、4K4DGen)的对比,验证了IaaW在视觉质量、失真度控制和时空一致性上的优势。二、创新点首个单图像到可控全景世界的生成框架:首次实现从单张图像生成可交互、时间可延续的360度全景世界,无需多视角或全景输入,降低数据获取成本;

更多文章