字节跳动发布创新视频生成基础模型 字节Seed团队带来全新视频生成基础模型,名为Seaweed海藻,即“Seed-Video”的巧妙缩写。该模型首发仅70亿参数,却展现出超越同类140亿参数视频模型的实力。
强大功能与多元应用Seaweed能依据文本描述创建各种分辨率、宽高比和时长的视频,原生支持1280×720分辨率。它支持图像生成模型,控制功能增强,支持首尾帧调节与微调,还能结合字节多模态数字人方案Omnihuman,通过一张图、一段音频生成人物视频,实现人声与角色匹配,动作同步。此外,它支持用视频生成音频,配合叙事场景。在长篇故事叙述方面,用户可提供全局或细粒度文本描述,结合多种技术带来新体验。
卓越技术特性除原生分辨率,还支持采样至2K,基于SeedVR实现通用视频修复。可实时生成分辨率为1280×720、帧率为24fps的视频,支持多种控制生成技术。与其他模型对比,在不同任务中展现优势。
技术创新实现低成本高效益 技术报告聚焦在视频生成基础模型训练上实现低成本高效益。团队训练约70亿参数的DiT模型,使用665000个H100 GPUHours。在数据处理上,有全面管道,通过教师学生模型蒸馏等方法提高效率与准确率,每天处理超500000小时视频数据。模型架构由64x压缩比VAE与DiffusionTransformer结合,为视频生成带来优势。采用多阶段多任务学习训练策略,从低分辨率到高分辨率渐进训练,在Infra层面进行优化,模型FLOPs利用率达到38%。
研究团队实力雄厚研究团队由蒋路、冯佳时、杨振恒、杨建超带领。蒋路是前谷歌高级科学家,在谷歌多个产品中贡献突出,冯佳时是大模型视觉基础研究团队负责人。
© 版权声明
文章版权归作者所有,未经允许请勿转载。