智谱AICogView4开源文生图模型亮点多：支持中文输入与复杂指令

AI快讯1年前 (2025)发布 niko

智谱ai的CogView4开源文生图模型惊艳登场，这一模型带来诸多革新。它在参数数量达6亿的基础上，全面支持中文输入以及中文文本到图像的生成，是“首个能在画面中生成汉字的开源模型”。

CogView4以支持中英双语提示词输入为突出亮点，对复杂中文指令理解和遵循能力出色，极大地造福了中文内容创作者。作为该领域填补空白的模型，它还支持生成任意宽高图片，能处理任意长度提示词输入，灵活性极高。

CogView4的双语能力源于技术架构全面升级 。其文本编码器升级为GLM -4，支持中英双语输入，打破了此前开源模型仅支持英文的限制。而且该模型通过中英双语图文对训练，保障了中文语境下的生成质量。

在文本处理方面 ，CogView4摒弃传统固定长度设计，采用动态文本长度方案。当平均描述文本为200 -300个词元时，相比固定512词元的传统方案，冗余减少约50%，训练效率提升5% – 30%，优化了计算资源，能更高效处理长短不一的提示词。

CogView4支持生成任意分辨率图像 ，背后是混合分辨率训练、二维旋转位置编码和内插位置表示等多项技术突破，基于Flow -matching扩散模型和参数化线性动态噪声规划，提升了图像质量和多样性。

CogView4的训练流程分多阶段 ：从基础分辨率训练起步，经泛分辨率适配、高质量数据微调，最后通过人类偏好对齐优化输出。这一过程保留Share -param DiT架构，为不同模态引入独立的自适应层归一化，确保了模型在多种任务中的稳定性与一致性。

项目链接：https://github.com/THUDM/CogView4

文章版权归作者所有，未经允许请勿转载。