新型多模态生成框架Liquid：突破视觉处理局限，揭示多模态与LLM尺度规律

多模态融合新突破：Liquid框架诞生在人工智能领域的多模态融合发展进程中，华中科技大学、字节跳动与香港大学联合团队带来新成果，推出新型多模态生成框架Liquid。该框架旨在攻克当前主流多模态模型在视觉处理方面的局限。

Liquid创新设计：摒弃外部视觉组件依赖传统多模态大模型依靠复杂外部视觉模块，增加系统复杂性且限制扩展性。Liquid则独辟蹊径，选用VQGAN作为图像分词器，摆脱对外部视觉组件的依赖。通过将图像编码成离散的视觉token，模型能与文本token共享词表，实现“原生” 视觉理解与生成能力。

研究发现：Liquid降低成本并揭示尺度规律研究表明，Liquid不仅能降低训练成本，还揭示了多模态能力与大语言模型（LLM）的尺度规律。团队在不同规模LLM上实验，发现随着模型规模扩大，视觉生成任务性能和质量与语言任务遵循一致缩放规律。而且，视觉理解与生成任务相互促进，可通过共享表示空间联合优化。

极简设计与优越性能：Liquid的独特之处Liquid秉持极简主义，对图像和文本统一处理框架。构建时利用30M文本数据和30M图文对数据进行多模态训练。最终实验显示，Liquid在多模态理解、图像生成及纯文本任务中性能优越，生成图像与文本语义一致性高于其他自回归模型。

未来展望：Liquid为多模态智能架构带来新思路Liquid的出现，为通用多模态智能的架构设计提供了全新思路，预示着人工智能在多模态融合方向将迎来更高效灵活的发展。论文链接：https://arxiv.org/pdf/2412.04332

# AI快讯

文章版权归作者所有，未经允许请勿转载。