OmniHuman：单张照片生成逼真全身视频的创新AI系统

近日，字节跳动研究团队带来惊喜，一款名为OmniHuman的人工智能系统诞生。它能把单张照片转化为逼真视频，展现人物讲话、歌唱及自然动作，这在数字娱乐和通讯领域堪称重大突破。

OmniHuman的独特之处在于能够生成全身视频，呈现人物讲话时的手势和动态，超越了以往只能动画面部或上半身的AI模型。其技术核心是结合文本、音频和人体动作等多种输入，采用“全条件”训练这一创新方法，让AI从更大、更丰富的数据集中学习。

据悉，OmniHuman经过超18700小时的人类视频数据训练，取得显著进步。通过引入多种条件信号，如文本、音频和姿势，不仅提升了视频生成质量，还减少了数据浪费。

研究人员在arXiv发表的论文中提到，尽管人类动画端到端技术近年有进展，但现有方法在扩大应用规模上存在局限。而OmniHuman的出现，为行业带来新的可能。

OmniHuman应用潜力巨大，可用于制作演讲视频、演示乐器演奏等。经测试，在多个质量基准上优于现有系统，展现出卓越性能。在AI视频生成技术竞争激烈的当下，谷歌、Meta和微软等公司也在积极探索类似技术。

不过，OmniHuman虽为娱乐制作、教育内容创作及数字通讯带来变革契机，但也引发了合成媒体潜在误用的担忧。研究团队将在即将召开的计算机视觉会议上展示成果，具体时间和会议暂未公布。论文链接：https://arxiv.org/pdf/2502.01061

文章版权归作者所有，未经允许请勿转载。