今日,阶跃星辰携手吉利汽车集团,对外宣布联合开源两款阶跃Step系列多模态大模型,即Step-Video-T2V视频生成模型与Step-AUdio语音模型。
值得一提的是,阶跃Step-Video-T2V视频生成模型在参数量及性能方面,于全球范围内都处于领先位置。此模型具备300亿参数量,可直接生成204帧、540P分辨率的高品质视频,所生成内容信息密度高且一致性强。评测结果表明,Step-Video-T2V在指令遵循、运动平滑性、物理合理性以及美感度等多个维度均表现优异,大幅超越市面上现有的最佳开源视频模型。

目前,这两款模型均已在跃问App内上线,开发者朋友们可前往体验并提出宝贵建议。阶跃Step-Video-T2V视频生成模型在复杂运动、美感人物、视觉想象力等方面呈现出卓越的生成能力,它能够精准领会指令,有力协助视频创作者实现创意表达。无论是高雅的芭蕾舞、激烈对抗的空手道,还是紧张刺激的羽毛球、高速翻转的跳水场景,Step-Video-T2V都能生成真实且符合物理规律的画面。
不仅如此,该模型还支持多种镜头运动方式与景别切换,可生成大幅度运镜的视觉效果。其生成的人物形象更为逼真、生动,细节丰富且表情自然。
GitHub: https://github.com/stepfun-ai/Step-Audio
Hugging Face: https://HuggingFace.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b
技术报告: https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf
© 版权声明
文章版权归作者所有,未经允许请勿转载。