AI界新突破：靠“玩游戏”领悟现实世界

上周编辑部的同事们还在讨论AI领域下半年的动态，似乎并未出现什么大的新动作，没过几天就发现之前的判断为时过早。
原本认为AI技术还仅限于文字输入后生成图像或视频的程度上，然而近日几家AI公司宣布他们能够生成完整的3D世界场景。正是AI界梦寐以求的“世界模型”——可以理解真实世界的超级AI技术。
首先提到的World Labs，虽然知名度不高，但其背后创始人李飞飞是世界著名的AI科学家，斯坦福大学的教授，美国科学院的院士，被誉为机器学习奠基人之一，享有“AI教母”之称。World Labs在官网上宣称其AI是全球首个能够直接渲染3D场景的产品，超越了传统生成模型的像素预测，具有交互性与自由度。
简单来说，这种新的AI无需传统图形生成模型，仅凭一张图片就能生成空间模型，并且可以在其中任意移动。尽管目前尚无法实际体验，World Labs官网提供了一些案例可供参考。
在演示画面中，键盘和鼠标的存在意在展示该AI生成的场景具有高度自由度，用户可通过键鼠在网页上进行操作体验。不过我们建议不要轻易尝试，因为操作界面易于卡顿且活动范围有限，可能会造成眩晕。
作为行业内的首创，这种情况下可以给予一定的理解和支持。
然而，李飞飞的技术公开仅一天后，谷歌DeepMind也宣布了其第二代“世界模型”，号称能够理解真实世界的运作规律，让人不免好奇这个Genie 2究竟是如何模拟真实世界的。在其官网上，我们可以了解到Genie 2的演示过程，输入提示词后生成的效果显得十分逼真。
对比World Labs的AI模型，DeepMind的产品在画面流畅度和自由度上更胜一筹。官网也说明了这是一个基于游戏的初级世界模型，在其中可以通过WASD键，空格键和鼠标控制画面中的角色，甚至可以生成第一人称视角版本。
所有因操作动作产生的画面都是由AI即时计算出来的，持续时间可达一分钟，且通过键盘操作回退时，画面会恢复到原先状态。这样的功能相当于AI能够记忆新生成的“世界”在每一个时刻的状态。其中角色和交互也是令人瞩目的部分，例如，在动作上除步行，用户还可以控制角色跑、跳、爬梯、驾驶、射击。AI生成的非玩家角色也可以进行交互。虽然效果不尽如人意，但仍可看出它们确实有所动作。
场景中涉及自然元素的运动效果也很出色，例如水面和烟雾，甚至包括重力和光线反射效果。如果提供现实中的照片，AI可以模拟出周边环境，看起来类似于街景图。虽然视觉效果非常强大，但和李飞飞的技术一样，DeepMind的新模型也没有让人直接尝试的功能，仅在官网中发布了他们的测试版本。
而我们的测试经验表明，无论是大公司还是新公司，官方发布的演示案例肯定是精心挑选的、展现了最佳效果，实际应用时可能还需降低预期。但DeepMind也坦诚表示，尽管他们的技术处于早期版本阶段，自己测试中也发现了一些问题。比如，本来说让画面中的小哥滑雪，AI却让他成为跑酷选手；一个花园场景中，玩家什么都没有操作，花园里却突然飘过一个幽灵。
尽管存在瑕疵，但从提供的演示来看，它的确在AI理解世界这一方面取得了显著的成功。
聪明读者可能已经想到，这种伴随主体运动的模式，以前的Sora视频模型不是也能模拟吗？那么这次的技术有何不同？这主要与训练AI的方向有关。Sora虽然声称是世界模型，但视频穿模和幻觉问题是难以解决的。它们所学习的资料本质上还是视频，以前一个画面推算下一个画面，并不真正理解视频物体间的交互和作用。例如，想让AI理解物体有重量，从视频学习是相当困难的。
为了让AI理解这些真实世界中的参数，首先需要它认识到环境是一回事，而环境中的人和物是另一回事。这就是为什么现在的技术从文本至图像模型转为生成地理环境模型，然后在环境内呈现人的动作。这也是李飞飞World Labs模型的长处，首先让AI学习建模进而展示场景。不过，与World Labs相比，DeepMind的技术更为先进，这与他们的技术路线和研究方法有关。若前一种是用图像来还原真实场景，那么DeepMind是用AI来生成一个游戏世界。
他们在训练中使用了游戏素材来学习，这比视频更优，因为AI不仅可以学习动态变化的角色和画面，还能观察键盘操作对画面和动作的影响，全面理解物体与环境的交互。实际上，Genie团队在三月份已经发布过一个版本，但当时的AI游戏还是2D横屏的效果，到了2.0版本，他们实现了3D效果，而且效果非常接近真实的3D游戏，甚至在画面质量上超过了一些游戏。
即便如此，我们也不能认为DeepMind已经找到了通用解，AI的表现好并不等同于它已经能正确理解现实。最根本的一点是，AI是通过游戏学习的，而游戏是根据现实设计的。再完美的二手资料也无法等同于对现实世界的正确理解。至于真正的通用AI何时来临，我们只能耐心等待。

# AI快讯

文章版权归作者所有，未经允许请勿转载。