字节豆包大模型团队在arxiv发布技术报告,公开文生图模型Seedream2.0技术细节,此模型去年12月初上线于豆包APP和即梦平台,是服务数亿用户的核心模型。
当前基于DiT架构的图像生成存在诸多问题,而Seedream2.0在中英文能力上表现突出。英文提示词方面,对比其他模型有优势且无明显短板;中文方面,文字渲染和国风美感出色,生成与渲染文字可用率达78%,完美响应率为63%,高于业界其他模型。
在数据处理上,团队构建以“知识融合”为核心的预处理框架。创新设计四维拓扑网络,实现质量与知识动态平衡;智能标注引擎实现三级认知进化;工程化重构,从异构调度和流水线并行处理两方面提升数据处理效率与质量。
预训练阶段,Seedream2.0采用全新架构。提出基于LLM的双语对齐方案,打破语言视觉次元壁;构建双模态编码融合系统,让模型兼顾文本理解与字体字形;三重升级DiT架构,提升训练稳定性,实现图像生成缩放自如。
后训练过程含四个阶段,团队开发的RLHF优化系统提升了模型性能。构建多维度偏好数据体系,制作三个不同奖励模型,通过反复学习驱动模型进化。
此次技术报告发布是字节首次公开图像生成基础模型细节,未来团队还将探索Scaling及强化学习相关创新技术,推动行业发展。
© 版权声明
文章版权归作者所有,未经允许请勿转载。