Seedream 2.0文生图模型技术细节全公开：中英双语、数据处理与预训练新突破

AI快讯1年前 (2025)发布 niko

字节豆包大模型团队在arxiv发布技术报告，公开文生图模型Seedream2.0技术细节，此模型去年12月初上线于豆包APP和即梦平台，是服务数亿用户的核心模型。

当前基于DiT架构的图像生成存在诸多问题，而Seedream2.0在中英文能力上表现突出。英文提示词方面，对比其他模型有优势且无明显短板；中文方面，文字渲染和国风美感出色，生成与渲染文字可用率达78%，完美响应率为63%，高于业界其他模型。

在数据处理上，团队构建以“知识融合”为核心的预处理框架。创新设计四维拓扑网络，实现质量与知识动态平衡；智能标注引擎实现三级认知进化；工程化重构，从异构调度和流水线并行处理两方面提升数据处理效率与质量。

预训练阶段，Seedream2.0采用全新架构。提出基于LLM的双语对齐方案，打破语言视觉次元壁；构建双模态编码融合系统，让模型兼顾文本理解与字体字形；三重升级DiT架构，提升训练稳定性，实现图像生成缩放自如。

后训练过程含四个阶段，团队开发的RLHF优化系统提升了模型性能。构建多维度偏好数据体系，制作三个不同奖励模型，通过反复学习驱动模型进化。

此次技术报告发布是字节首次公开图像生成基础模型细节，未来团队还将探索Scaling及强化学习相关创新技术，推动行业发展。

文章版权归作者所有，未经允许请勿转载。