智谱ai的CogView4开源文生图模型惊艳登场,这一模型带来诸多革新。它在参数数量达6亿的基础上,全面支持中文输入以及中文文本到图像的生成,是“首个能在画面中生成汉字的开源模型”。
CogView4以支持中英双语提示词输入为突出亮点,对复杂中文指令理解和遵循能力出色,极大地造福了中文内容创作者。作为该领域填补空白的模型,它还支持生成任意宽高图片,能处理任意长度提示词输入,灵活性极高。
CogView4的双语能力源于技术架构全面升级 。其文本编码器升级为GLM -4,支持中英双语输入,打破了此前开源模型仅支持英文的限制。而且该模型通过中英双语图文对训练,保障了中文语境下的生成质量。
在文本处理方面 ,CogView4摒弃传统固定长度设计,采用动态文本长度方案。当平均描述文本为200 -300个词元时,相比固定512词元的传统方案,冗余减少约50%,训练效率提升5% – 30%,优化了计算资源,能更高效处理长短不一的提示词。
CogView4支持生成任意分辨率图像 ,背后是混合分辨率训练、二维旋转位置编码和内插位置表示等多项技术突破,基于Flow -matching扩散模型和参数化线性动态噪声规划,提升了图像质量和多样性。
CogView4的训练流程分多阶段 :从基础分辨率训练起步,经泛分辨率适配、高质量数据微调,最后通过人类偏好对齐优化输出。这一过程保留Share -param DiT架构,为不同模态引入独立的自适应层归一化,确保了模型在多种任务中的稳定性与一致性。
项目链接:https://github.com/THUDM/CogView4
© 版权声明
文章版权归作者所有,未经允许请勿转载。