OmniHuman-1:让静态照片“动”起来的人工智能模型

AI快讯2周前发布 niko
12 0
AiPPT - 一键生成ppt

字节跳动推出的OmniHuman-1人工智能模型在网络上引发关注。只需一张照片,短短几秒内,照片中的人物就能开口说话、做出动作,甚至进行表演,展现出独特魅力。

image.png

与传统深度伪造技术有别,OmniHuman-1并非仅局限于人脸替换,而是能实现整个人体的动画化。从自然的手势到姿态变化,再到与物体的互动,都能生动呈现。无论是政客演讲、历史人物复活,还是虚拟角色唱歌,它都在改变着视频创作模式。

OmniHuman-1的突出优势体现在逼真度与功能性上。不仅能让人脸实现动画效果,口型同步精准,情感表达也极为细腻。无论是高分辨率肖像照、低质量快照,还是风格化插图,都能智能适配,生成流畅且可信的动态画面。

其技术核心在于创新的“全条件”训练策略。借助音频片段、文本提示和姿态参考等多种输入信号同时训练,让AI能更精准预测动作,尤其是面对复杂手势和情感表达时。同时,字节跳动利用规模达18700小时的人类视频数据集,大幅提升了生成内容的自然度。

不过,OmniHuman-1的出现也带来了伦理和安全隐患。高度真实的生成能力可能被用于传播虚假信息、身份盗窃和数字伪装。为此,字节跳动在推出该技术时,必须采取诸如数字水印和内容真实性追踪等严格监管措施,防止技术被滥用。各国政府和科技组织也在积极制定监管政策。

展望未来,OmniHuman-1在社交媒体、电影、游戏和虚拟影响力等领域具备巨大应用潜力。字节跳动的这一创新成果,有力推动了AI生成技术发展,也为全球科技竞争带来新变化。

项目:https://omnihuman-lab.github.io/

© 版权声明
智谱清言 - 国产最强AI模型