80亿参数+原生多模态!腾讯混元图像3.0开源,重新定义图像生成效率

AI快讯8秒前发布 niko
1 0

腾讯近日正式推出混元图像3.0,这是行业内首个开源的商用级原生多模态图像生成模型,参数规模达80亿,目前已开放官网体验及模型权重免费下载。

过去,用户处理文本、图像、视频等多格式内容生成时,往往需要组合多个模型,操作复杂且效果割裂;无艺术背景的内容创作者想生成复杂图像,要么得详细描述每个细节,要么成品不符合预期,创作效率低下。

混元图像3.0的“原生多模态”技术架构精准解决了这一痛点——它无需依赖多模型组合,仅凭单一模型就能处理文本、图像、视频、音频等多种输入输出格式,既具备图像生成能力,又拥有强语义理解能力,相当于给“智能画家”加装了“思考大脑”。

强语义理解:短提示生成复杂图像

**强语义理解是混元图像3.0的核心优势**。用户无需输入冗长提示,仅需简单描述就能生成复杂内容:比如输入“生成月食四格科普漫画”,模型会自动完成完整漫画的创作,无需逐格说明细节;针对更具体的场景需求,模型也能精准拆解。

以“小红书时尚博主OOTD封面”为例,用户要求“左侧是模特全身穿搭、右侧拆分展示深棕色夹克、黑色百褶裙、棕色靴子、黑色包包,风格为写实摄影、秋日美拉德色系”,混元图像3.0能准确实现左侧全身穿搭与右侧单品的对应展示,甚至连图像中的小文本、长文本都能精准生成。

80亿参数+原生多模态!腾讯混元图像3.0开源,重新定义图像生成效率

从“小时级”到“分钟级”:降低创作门槛

这一能力直接赋能创作者:插画师、设计师过去需要数小时完成的漫画、海报等创作,现在几分钟就能完成;无艺术背景的内容创作者也能轻松生成高质量视觉内容,覆盖产品图、科普漫画、时尚插画等多种场景,大幅提升创作效率。

技术支撑与未来规划

混元图像3.0的强能力源于多模态混合训练——团队用50亿图像-文本对、6TB文本数据进行训练,整合多任务效果,夯实语义理解基础。腾讯团队透露,后续将逐步推出图生图、图像编辑、多轮交互等新功能,进一步丰富用户体验。

目前,用户可通过腾讯混元官网(https://hunyuan.tencent.com/image)体验混元图像3.0;模型权重及加速版本已在GitHub、Hugging Face等开源平台免费发布,开发者可下载使用。

© 版权声明