一张照片,AI生成了90米真实3D世界!
英伟达Lyra 2.0让虚拟世界不再“失忆”
今年4月,英伟达研究团队正式发布并彻底开源了Lyra 2.0——一个仅需单张2D照片就能生成可自由探索的大规模3D世界的AI系统。这项被研究人员与开发者誉为“终结AI长视频环境连续性问题核心障碍”的技术,其关键突破在于:AI终于不再“失忆”了。
Lyra 2.0本质上是一个生成式3D场景构建框架。技术上,它先将单张背景图像送入一个拥有140亿参数的视频扩散模型(Wan 2.1-14B)模拟出摄像机在空间内自由移动时的长序列画面,然后利用前馈重建模块将这些画面快速转为包含完整色彩、几何结构与纹理信息的3D场景。
生成的结果以“3D高斯泼溅(3D Gaussian Splatting)”为主,辅以传统的表面网格结构。这套技术路线的关键优势在于:避免了传统3D重建中多视角采集与复杂几何拟合的漫长过程,可以一步到位。
英伟达研究实验室还同步提供了交互式图形界面(GUI):你可以在生成的3D点云中自由规划摄像机路径,系统会在你走入未知区域时实时生成新内容。
以前的AI生成3D场景有一个老大难问题:虚拟摄像机走远并回头后,原本的场景结构会莫名其妙地崩塌或扭曲。
空间遗忘:AI模型的计算窗口存在长度限制。一旦摄像机走远,先前生成的区域会从记忆槽中脱落。当模型需要再次展示那个区域时,只好“凭空脑补”,导致场景结构前后矛盾。
时间漂移:模型的每一帧画面都带有微小误差。距离越远,这些误差会被不断放大,最终画面变形到面目全非。
这两个问题严重阻碍了产业落地,毕竟在机器人训练、自动驾驶仿真、工业数字孪生中,虚拟环境的稳定性和连贯性是个硬指标。
Lyra 2.0针对上述两个核心痛点,有两项截然不同但效果显著的技术创新:
第一招:引入帧级3D空间信息路由,杜绝“一回头墙就歪”
Lyra 2.0不再依赖于视频模型的时序画面上下文,而是将每一帧独立的3D几何数据单独存储。当摄像机返回曾经探索过的区域时,AI直接调取历史空间位置与几何坐标来恢复整体环境,杜绝了因“窗口”限制产生的凭空幻觉。
第二招:自增强训练,微误差不传代不被放大
从原理上讲,时间漂移是逐步累积的,传统模型自己的垃圾信息只会害了自己。Lyra 2.0独辟蹊径,在训练阶段主动将模型自身产生的瑕疵输出数据混入训练资源,使其在日常生成时就建立抑制误差放大的纠错机制,让每步输出都能尽量无限接近原始参考,从而在更长的距离里保持连贯。
技术效果相当惊艳:基于这双重策略,Lyra 2.0不仅能生成跨度接近90米的连贯环境,且在图像质量与摄像机控制等关键指标上直接碾压了GEN3C、Yume-1.5、CaM等6个业内领先竞品。
对产业界来说,Lyra 2.0真正划时代的意义在于:为具身智能与自动驾驶仿真训练铺平了道路。
目前全球具身智能领域(服务机器人、自动驾驶、工业机器人等)都面临训练真实3D场景成本过高的瓶颈——传统3D构建,一个百米街区往往要数周手动采集贴模与场调,几何畸变在所难免。而Lyra 2.0直接降低了这一门槛,它生成的3D虚拟场景无需真实世界海量数据,只要一张单张照片即可。
Lyra 2.0可以无缝输出到英伟达Isaac Sim物理引擎(这一组合已被全球机器人研发圈奉为标配流程)。配合自带的网格格式导出,机器人厂商可以在完全虚拟合成的训练环境中反复执行抓取、移动与导航特训,而不用扛着激光雷达满场地跑数据,训练周期和成本都有望大幅降低。
举个例子:想训练一个能在商场做货物配送的服务机器人,开发者只需随手拍一张商场入口的照片,Lyra 2.0就能在几分钟内把周围长达90米的空间环境用AI无中生有出来,机器人在这个虚拟空间内就可以反复试错、迭代导航策略。
除了技术本身,NVIDIA这次极具攻击性的策略还体现在商业化上:100%开源。Lyra 2.0的完整论文、源代码与模型权重全部免费开放。
完整开源:在GitHub开源代码库中,Lyra框架完整可用,并以Apache-2.0宽松开源许可证发布,用户可自由修改、发布甚至集成到商业产品中。
附赠GUI与适配NVIDIA生态:系统附带官方可视化的图形界面(GUI)。
用户在界面上任意规划路径,系统即可立即生成虚拟内容,并能将最终3D模型直接拖进NVIDIA Omniverse、Issac Sim等主流工业仿真渲染平台——完全打通了从照片、3D场景到物理仿真的全域工作流。
Lyra 2.0的发布,向业界发出一个清晰而强烈的信号:AI在工业数字孪生和虚拟世界构建领域已进入新的技术层面。
开发者的门槛降低了:以往一个中型3D环境需要线下数周甚至数月手工三维建模的苦累工序,如今只需单张照片就能搞定。
AI具备了真正的物理空间推理能力:从记忆融合到空间重访,Lyra 2.0解决的是AI理解几何世界连贯性的基础难题。
正如构建Phigent Universe、Sora等初代3D世界模型的先驱让AI理解物理世界一样——Lyra 2.0让我们看到一个AI不仅能看懂世界,还能一步构建超大规模高连贯虚拟空间的未来。
或许再过几年,在AI生成的数字世界中进行大规模机器人训练、无人车仿真路测,会成为每一个普通算法工程师都能轻松上手的日常工作。