国内AI巨头智谱ai有重大举措,开源了全新文生图模型CogView4,这一行动成功将中文图片生成技术推至新高度。对于设计师、内容创作者以及AI绘画“小白”而言,从此告别英文prompt的限制,能够用母语玩转AI图像生成。
CogView4优势显著。其最大亮点是对中文具备“超强理解力”,用户无需再借助翻译软件将中文prompt转为英文,用自然中文“指令”,模型就能秒懂意图,精准生成所需画面。并且,它是首个能在画面中直接“写”出汉字的开源模型,让创意表达更“原汁原味”。
CogView4还打破了图片尺寸和prompt长度的限制。生成“巨幅”宽屏海报,或是用“长篇大论”的prompt描述复杂场景,它都能轻松应对,充分满足各种创作需求。在权威的DPG-Bench基准测试中,CogView4综合评分排名第一,这表明它不仅使用便捷,图像生成质量也极高。
智谱AI为助力更多开发者和用户运用CogView4,后续还会开源配套的ControlNet、ComfyUI支持和模型微调工具。如此一来,用户既能直接使用其强大功能,又能根据自身需求深度定制,打造个性化、强大的图像生成模型。
CogView4技术升级多方面。在双语能力上,其“大脑”升级为更强大的GLM-4编码器,通过学习海量中英双语图文数据,真正实现“中英双语,自由切换”。文本处理采用“动态文本长度”技术,像“智能裁缝”般量体裁衣,提升了效率,理解更精准,生成速度也更快。分辨率生成方面,运用“混合分辨率训练”等“黑科技”,能驾驭各种尺寸图片生成,图像生成过程更“丝滑”“可控”。训练流程“精雕细琢”,经历“多阶段训练”等环节,保留Share-param DiT架构,让模型更“强大”“高效”。
© 版权声明
文章版权归作者所有,未经允许请勿转载。