Vidu Q1升级：Reference-to-Video与多实体一致性技术开启视频创作新时代

AI快讯1年前 (2025)发布 niko

在中国AI视频生成领域具有领先地位的Vidu，近期对其Q1模型进行了重大升级。此次升级带来了一项名为“Reference-to-Video”的全新功能，用户能够上传多达七张参考图像，进而生成具有极高视觉一致性的1080p视频。这一功能突破了传统AI视频生成在多场景和多主体一致性方面的瓶颈，赋予创作者前所未有的灵活性和创作自由。

Reference-to-Video：七张图片解锁复杂叙事

“Reference-to-Video”是ViduQ1此次升级的核心亮点。用户可上传包含人物、场景、道具等元素的最多七张参考图像，并结合文本提示生成高质量视频。借助先进的语义融合技术，ViduQ1确保视频中多个图像元素的高度一致性，避免了传统AI视频生成中常见的场景断裂或人物变形等问题。

例如，用户上传一张人物照片、一张森林背景图和一张动物图片，并输入提示“一位女士在森林里弹吉他，一只猫头鹰栖息在树枝上”，ViduQ1能够智能生成包含弹吉他动作、森林环境和猫头鹰的视频，且在服装纹理、背景灯光和动物动作等细节上高度逼真。这一功能为动画、短视频和广告创作者提供了强大工具，显著降低了复杂场景创作的门槛。

多实体一致性：打造连贯视觉体验

多实体一致性技术是ViduQ1的核心竞争优势之一。用户上传不同类型的参考图像（如人物、物体和环境），可生成包含多个实体交互的视频，且每个实体的特征在视频中保持稳定。比如，上传一张人物照片、一件有图案的服装和一辆自行车的图像，ViduQ1能生成一个流畅的视频，其中人物穿着指定服装骑着自行车，图案和自行车设计等细节与参考图像高度匹配。

# AI快讯

文章版权归作者所有，未经允许请勿转载。