AI巨头竞逐数字宇宙构建技术

AI快讯2年前 (2024)发布 niko

2024年12月4日，技术界迎来了一项新的里程碑：发布了其名为Genie 2的AI系统，实现了从一张静态图片到一个可交互的3D世界的转变。虽交互时间短暂，但其中的细节精细度与交互流畅性都达到了前所未有的水平。

现行构建数字宇宙的主要技术路线包括：追求视觉真实的Sora、注重实时交互的Genie 2，以及专攻空间准确性的World Labs。这些路线都具有一定的优势和暂时无法解决的挑战。

未来目标将在这三条路线中实现技术融合，使AI生成的游戏和数字世界更加成熟，有许多问题仍待解决。

Genie 2具体效果引来了广泛关注：由画面清晰、细节丰富的技术迭代当中，可以看到从一张平面图片到一个3D立体世界的能力。该技术使用了DeepMind的先进图像生成模型Imagen 3，并配合自回归潜在扩散模型来实现。

Genie 2区别于其他技术的点在于：其引入的可控制智能体。为了实现这一控制，引入了无分类器引导技术，提高了动作的可控性，使其能准确识别场景中的可控制对象。

与场景互动能力得益于另一个项目的经验：SIMA项目通过在视频数据集上的训练，使得系统能够区分动态和静态元素，并理解交互规则。

Genie 2在渲染方面接近物理光学的效果：具备处理直接光照、全局光照以及材质反射的能力，并且实现了相对真实的动态阴影。

场景记忆机制让其保持高度的一致性：这对于连续场景的记忆和维持是至关重要的，反映出需解决的技术难点。Genie 2的生成能力虽然有很大进步，但同时也面临着鲜明的挑战，如训练数据限制导致的失误。

如增加场景物理规则的突然改变等现象仍有改善空间。总体而言，虽然Genie 2在生成质量和交互深度上实现了跨越，但在场景的长期叙事连贯性和一致性方面，存在待改进的地方。特别是生成持续时间的限制，目前Genie只有10-20秒的连续场景。

在AI世界模型构建方面，三家技术路线共逐：他们分别强调不同的特点，包括视觉真实性、交互自然性和空间准确性。

Sora通过时空扩散模型处理空间和时间信息：这样的处理既保持了画面的高质量，也保持了时间上的连贯性，但交互能力和准确性不足。

谷歌的Genie 2则在这方面作出了调整：通过自回归模型和游戏数据训练，强化了游戏引擎中的物理规则认知以及实时响应的能力。

World Labs则提供了空间几何精确性的解决方案：通过类似点云技术和几何重建的方法来保证三维结构的稳定性。

构建数字宇宙是一个长远的课题：每条技术都在努力解决视觉真实性、交互自然性和空间准确性的核心挑战。

未来的3A级游戏突破可能来自于这些技术的融合：结合Sora的视觉质量、Genie 2的交互能力以及World Labs的空间准确性的混合系统。

构建数字宇宙需要重新定义什么是“真实”：最终我们会追求的不只是技术上的突破，更在于如何定义真实性的多维度和谐共存。

文章版权归作者所有，未经允许请勿转载。