多模态大模型发展:自回归引领创作变革与IP生态新局

AI快讯1个月前发布 niko
1 0
AiPPT - 一键生成ppt

近期,多模态大模型领域取得显著进展,为创作领域带来诸多变革。2025年3月25日,OpenAI推出的GPT-4o图像生成功能备受关注,其基于自回归的全新模型架构,在图像生成方面优势明显。

GPT-4o成功攻克文字渲染难题,能精准在图像中呈现指定文本,满足菜单、邀请函等多种设计需求。同时,它可理解并执行复杂文本指令,支持多元素图像生成任务,提升创作灵活性与精确性。在多轮对话中,GPT-4o还能进行图像生成与编辑,结合知识库和上下文提升图像质量。

Google也不甘示弱,推出的Veo 2可根据文本提示生成高质量视频,支持4K分辨率与多种镜头效果,还引入视频编辑扩展功能。gemini Flash 2.0Image Generation整合自回归模型,增强了模型可用性。

自回归模型在图片生成中的落地,是这批多模态模型与以往的最大区别。与DiT架构相比,它在序列建模、生成过程控制等方面表现出色,融合自回归和DiT扩散模型可兼具两者优势。随着模型发展,自回归模型有望在生成质量和多模态融合上取得更大突破,向短视频领域迈进。

国内企业在多模态领域同样动作频频。快手发布可灵2.0大师版,升级了视频及图像创作的可控生成与编辑能力,成为视频生成的SOTA模型。字节跳动的豆包系列模型也成果丰硕,豆包视频生成模型1.5版具备更长视频生成能力,豆包文生图模型2.1版本实现精准生成汉字和一句话P图的产品化。

多模态大模型的发展极大降低了创作门槛,创作者通过简单文本提示就能生成多种高质量内容。同时,模型对版权和内容安全的重视,有利于保护创作者原创内容,促进IP生态健康发展。经典角色可借助AI“复活”,实现内容生命周期的延展。创作工具的普及推动了创作民主化,引发创作范式演进,未来多模态大模型将重构内容创作、分发和变现链条。

© 版权声明
Trea - 国内首个原生AI IDE