多模态大模型发展：自回归引领创作变革与IP生态新局

近期，多模态大模型领域取得显著进展，为创作领域带来诸多变革。2025年3月25日，OpenAI推出的 GPT-4o图像生成功能备受关注，其基于自回归的全新模型架构，在图像生成方面优势明显。

GPT-4o成功攻克文字渲染难题，能精准在图像中呈现指定文本，满足菜单、邀请函等多种设计需求。同时，它可理解并执行复杂文本指令，支持多元素图像生成任务，提升创作灵活性与精确性。在多轮对话中，GPT-4o还能进行图像生成与编辑，结合知识库和上下文提升图像质量。

Google也不甘示弱，推出的Veo 2可根据文本提示生成高质量视频，支持4K分辨率与多种镜头效果，还引入视频编辑扩展功能。gemini Flash 2.0Image Generation整合自回归模型，增强了模型可用性。

自回归模型在图片生成中的落地，是这批多模态模型与以往的最大区别。与DiT架构相比，它在序列建模、生成过程控制等方面表现出色，融合自回归和DiT扩散模型可兼具两者优势。随着模型发展，自回归模型有望在生成质量和多模态融合上取得更大突破，向短视频领域迈进。

国内企业在多模态领域同样动作频频。快手发布可灵2.0大师版，升级了视频及图像创作的可控生成与编辑能力，成为视频生成的SOTA模型。字节跳动的豆包系列模型也成果丰硕，豆包视频生成模型1.5版具备更长视频生成能力，豆包文生图模型2.1版本实现精准生成汉字和一句话P图的产品化。

多模态大模型的发展极大降低了创作门槛，创作者通过简单文本提示就能生成多种高质量内容。同时，模型对版权和内容安全的重视，有利于保护创作者原创内容，促进IP生态健康发展。经典角色可借助AI“复活”，实现内容生命周期的延展。创作工具的普及推动了创作民主化，引发创作范式演进，未来多模态大模型将重构内容创作、分发和变现链条。

# AI快讯

文章版权归作者所有，未经允许请勿转载。