AI界新突破:靠“玩游戏”领悟现实世界

AI快讯2周前发布 niko
11 0

上周编辑部的同事们还在讨论AI领域下半年的动态,似乎并未出现什么大的新动作,没过几天就发现之前的判断为时过早。
原本认为AI技术还仅限于文字输入后生成图像或视频的程度上,然而近日几家AI公司宣布他们能够生成完整的3D世界场景。正是AI界梦寐以求的“世界模型”——可以理解真实世界的超级AI技术。
首先提到的World Labs,虽然知名度不高,但其背后创始人李飞飞是世界著名的AI科学家,斯坦福大学的教授,美国科学院的院士,被誉为机器学习奠基人之一,享有“AI教母”之称。World Labs在官网上宣称其AI是全球首个能够直接渲染3D场景的产品,超越了传统生成模型的像素预测,具有交互性与自由度。
简单来说,这种新的AI无需传统图形生成模型,仅凭一张图片就能生成空间模型,并且可以在其中任意移动。尽管目前尚无法实际体验,World Labs官网提供了一些案例可供参考。
在演示画面中,键盘和鼠标的存在意在展示该AI生成的场景具有高度自由度,用户可通过键鼠在网页上进行操作体验。不过我们建议不要轻易尝试,因为操作界面易于卡顿且活动范围有限,可能会造成眩晕。
作为行业内的首创,这种情况下可以给予一定的理解和支持。
然而,李飞飞的技术公开仅一天后,谷歌DeepMind也宣布了其第二代“世界模型”,号称能够理解真实世界的运作规律,让人不免好奇这个Genie 2究竟是如何模拟真实世界的。在其官网上,我们可以了解到Genie 2的演示过程,输入提示词后生成的效果显得十分逼真。
对比World Labs的AI模型,DeepMind的产品在画面流畅度和自由度上更胜一筹。官网也说明了这是一个基于游戏的初级世界模型,在其中可以通过WASD键,空格键和鼠标控制画面中的角色,甚至可以生成第一人称视角版本。
所有因操作动作产生的画面都是由AI即时计算出来的,持续时间可达一分钟,且通过键盘操作回退时,画面会恢复到原先状态。这样的功能相当于AI能够记忆新生成的“世界”在每一个时刻的状态。其中角色和交互也是令人瞩目的部分,例如,在动作上除步行,用户还可以控制角色跑、跳、爬梯、驾驶、射击。AI生成的非玩家角色也可以进行交互。虽然效果不尽如人意,但仍可看出它们确实有所动作。
场景中涉及自然元素的运动效果也很出色,例如水面和烟雾,甚至包括重力和光线反射效果。如果提供现实中的照片,AI可以模拟出周边环境,看起来类似于街景图。虽然视觉效果非常强大,但和李飞飞的技术一样,DeepMind的新模型也没有让人直接尝试的功能,仅在官网中发布了他们的测试版本。
而我们的测试经验表明,无论是大公司还是新公司,官方发布的演示案例肯定是精心挑选的、展现了最佳效果,实际应用时可能还需降低预期。但DeepMind也坦诚表示,尽管他们的技术处于早期版本阶段,自己测试中也发现了一些问题。比如,本来说让画面中的小哥滑雪,AI却让他成为跑酷选手;一个花园场景中,玩家什么都没有操作,花园里却突然飘过一个幽灵。
尽管存在瑕疵,但从提供的演示来看,它的确在AI理解世界这一方面取得了显著的成功。
聪明读者可能已经想到,这种伴随主体运动的模式,以前的Sora视频模型不是也能模拟吗?那么这次的技术有何不同?这主要与训练AI的方向有关。Sora虽然声称是世界模型,但视频穿模和幻觉问题是难以解决的。它们所学习的资料本质上还是视频,以前一个画面推算下一个画面,并不真正理解视频物体间的交互和作用。例如,想让AI理解物体有重量,从视频学习是相当困难的。
为了让AI理解这些真实世界中的参数,首先需要它认识到环境是一回事,而环境中的人和物是另一回事。这就是为什么现在的技术从文本至图像模型转为生成地理环境模型,然后在环境内呈现人的动作。这也是李飞飞World Labs模型的长处,首先让AI学习建模进而展示场景。不过,与World Labs相比,DeepMind的技术更为先进,这与他们的技术路线和研究方法有关。若前一种是用图像来还原真实场景,那么DeepMind是用AI来生成一个游戏世界。
他们在训练中使用了游戏素材来学习,这比视频更优,因为AI不仅可以学习动态变化的角色和画面,还能观察键盘操作对画面和动作的影响,全面理解物体与环境的交互。实际上,Genie团队在三月份已经发布过一个版本,但当时的AI游戏还是2D横屏的效果,到了2.0版本,他们实现了3D效果,而且效果非常接近真实的3D游戏,甚至在画面质量上超过了一些游戏。
即便如此,我们也不能认为DeepMind已经找到了通用解,AI的表现好并不等同于它已经能正确理解现实。最根本的一点是,AI是通过游戏学习的,而游戏是根据现实设计的。再完美的二手资料也无法等同于对现实世界的正确理解。至于真正的通用AI何时来临,我们只能耐心等待。

© 版权声明

相关文章

暂无评论

暂无评论...