Sora模型评测：技术符合预期的产品亮点

AI快讯2年前 (2024)发布 niko

Sora只是GPT-1的一个开始。
最近，备受期待的Sora终于面世，在等待近一年后，Sora Turbo一经发布便引起了巨大反响，服务器迅速被热情的用户挤满，众多视频案例在网上引发热议。对于Sora的真实效果，评价显示出明显的两极分化趋势。一些用户坚信，Sora代表着视频生成技术的最高水准；另一些则表示其效果并未达到预期。
近日，在2024年终盛典上，包括人工智能研究院副院长朱军，某科技企业CEO张鹏，以及北京人工智能学院院长王仲远等多位业界专家对Sora进行了评判。朱军指出，Sora上线的冲击力相较今年初有所减弱，视频生成技术在过去一年取得了飞速的进步，已经不同于Sora初次发布时的状况。整体来说，Sora在产品方面确有亮点，特别是其视频编辑能力方面。但在基础模型能力方面并没有太多突出表现，效果基本符合预期，例如生成速度较慢，处于分钟级别，成本也不低，这可能将影响到未来的用户使用及商业化发展。
张鹏也表示，Sora的表现与他个人预期有些差距，技术指标上来看，国内一些视频生成模型并不逊色于Sora，例如某公司发布的清影，已经能够生成4K分辨率的视频。视频模型的竞争不仅仅在于参数对比，更重要的是如何产生实际应用和生产力。张鹏认为Sora的发布更多关注于产品而非模型本身，比如视频编辑能力和工作流等方面，这显示了对用户需求的重视和转变。
王仲远的观点是Sora的上线表现基本符合预期，并不像年初发布时那么惊艳。就产品上市时间而言，国内的一些公司实际上已经走在了OpenAI前面，推出了产品级的模型。今年，北京研究院发布了新模型Emu3，这也是探索下一代技术的体现，Emu3是一个文本、图片、视频在内的原生多模态统一理解和生成模型的范例。
从官网介绍到用户体验来看，最明显的感觉是公司已经从单纯的模型公司演变成了一个产品公司。Sora Turbo的最大亮点在于视频编辑的产品设计。公司今年显然加大了产品层面的投入，比如邀请了前Instagram和Twitter的产品副总裁加入公司，担任首席产品官。
经常有人问在AI时代什么是杀手级应用？从当前的情况来看，’Sora+ChatGPT‘可能就是被我们忽略的重要应用。
1.视频版的GPT-1
近日，CEO萨姆·奥尔特曼与团队负责人共同对Sora进行了20分钟的讲解直播。奥尔特曼在直播中称Sora为视频版的GPT-1，Sora依托DALL·E和GPT模型创建，采用扩散模型技术，从初始噪声中生成基础视频，逐步去噪以生产高质量画面。这一过程立足于Transformer架构，可以一次性预测多个帧，确保画面中主题的连贯性，即使主体暂时离开视野，也能保持一致性表现。
此外，Sora继承了DALL·E 3的文本重构技术，为视觉训练数据生成详细的描述性标题，增强了对用户文本指令的呈现能力。Sora训练数据来源多样，包括公开数据集、专有数据以及人为生成的数据等。奥尔特曼强调Sora Turbo开启了AI模拟现实与交互的新篇章，作为Sora的升级版本，提供了多种视频比例选项以及诸如Remix、Re-cut、混合拼接、故事板剪辑、风格预设等功能。
Sora拥有三种视频生成模式：文本到视频模式、文本加图像到视频模式以及文本加视频到视频模式。每种模式都对应不同的应用场景和需求，从简单视频制作到复杂的广告制作、视频编辑等。
奥尔特曼表示，Sora Turbo旨在开启AI模拟现实与交互的新篇章。Sora项目的目标是构建一个能够真正理解物理世界并增强人类创造力的AI系统。目前，Sora虽然仍不完美，偶尔出错，但已经足够强大，能够极大地扩展创造者的空间，赋予他们之前无法想象的能力。
ChatGPT Plus/Pro用户可以直接使用Sora Turbo生成视频，具体生成视频的数量和时长、分辨率取决于用户的服务级别。
公司同样重视模型的安全性和伦理使用。为此，在模型中植入了多种安全措施以确保视频透明度并验证来源。公司还设立了红队测试，对信息误导、仇恨内容和偏见等领域进行专家测试。
在过去的九个月中，公司收集并分析了来自全球多个国家和地区用户的反馈数据以优化模型行为和提高安全性。
2.Sora还有待完善
科技评测红人马克斯·基思·布朗利对Sora的深度评测揭示了Sora的一些优缺点。布朗利指出Sora擅长粒子和流体模拟，但物理处理方面并不完美。在官方展示的视频中，也可以看到Sora对运动的理解尚不全面。公司表示，Sora是一个强大的工具，它的目的是帮助人们跨越物理限制，探索新的可能性并赋予创作者更多的创作空间。
团队最后给出了理智的预期警告：如果你希望Sora能够一键生成一部故事片，那你可能抱有不切实际的期待。

# AI快讯

文章版权归作者所有，未经允许请勿转载。