阶跃星辰与吉利联合开源两款多模态大模型

AI快讯1年前 (2025)发布 niko

今日，阶跃星辰携手吉利汽车集团，对外宣布联合开源两款阶跃Step系列多模态大模型，即Step-Video-T2V视频生成模型与Step-AUdio语音模型。

值得一提的是，阶跃Step-Video-T2V视频生成模型在参数量及性能方面，于全球范围内都处于领先位置。此模型具备300亿参数量，可直接生成204帧、540P分辨率的高品质视频，所生成内容信息密度高且一致性强。评测结果表明，Step-Video-T2V在指令遵循、运动平滑性、物理合理性以及美感度等多个维度均表现优异，大幅超越市面上现有的最佳开源视频模型。

目前，这两款模型均已在跃问App内上线，开发者朋友们可前往体验并提出宝贵建议。阶跃Step-Video-T2V视频生成模型在复杂运动、美感人物、视觉想象力等方面呈现出卓越的生成能力，它能够精准领会指令，有力协助视频创作者实现创意表达。无论是高雅的芭蕾舞、激烈对抗的空手道，还是紧张刺激的羽毛球、高速翻转的跳水场景，Step-Video-T2V都能生成真实且符合物理规律的画面。

不仅如此，该模型还支持多种镜头运动方式与景别切换，可生成大幅度运镜的视觉效果。其生成的人物形象更为逼真、生动，细节丰富且表情自然。

GitHub: https://github.com/stepfun-ai/Step-Audio

Hugging Face: https://HuggingFace.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b

技术报告: https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf

# AI快讯

文章版权归作者所有，未经允许请勿转载。