MILS系统：创新多模态迭代LLM求解器推动AI发展

AI快讯1年前 (2025)发布 niko

在人工智能领域，一项新成果引发关注。MetaAI研究人员携手学术伙伴打造出MILS（多模态迭代LLM求解器），此系统能让大型语言模型在不经过专门训练的情况下处理图像、视频和音频，优势独特。

MILS的工作原理别具一格，通过配对“生成器”与“评分器”两个AI模型解决任务。“生成器”负责提出解决方案，“评分器”评估效果，其反馈助力生成器优化答案，直至达到满意结果。以图像描述任务为例，MILS可逐步细化描述，精准呈现不同层次的图像细节。

在图像描述方面，MILS表现出众。以LLaMA-3.1-8B模型为生成器、CLIP模型为评分器，即便CLIP未针对图像描述专门训练，MILS也能创建出相当甚至更详细的描述。此外，MILS通过微调文本提示增强文本到图像的生成能力，还能将AI生成提示与图像处理工具结合，处理风格转换等图像编辑任务。

MILS的功能并不局限于图像，还拓展到了视频和音频领域。在MSR-VTT视频数据集测试中，MILS在视频内容描述上超越现有模型。而且，由于运行中不修改模型参数，它能将不同类型数据转化为可读文本，支持多源信息合并转化，为多模态信息融合应用带来新可能。

测试显示，更大的生成器和评分模型可产生更准确结果，增加潜在解决方案数量能提升性能。研究人员还发现，扩展到更大语言模型，不仅提升结果质量，性能表现也明显改进。

MILS的创新策略契合人工智能向更智能推理能力发展的趋势。Meta团队表示，MILS未来在3D数据处理等领域或展现巨大潜力，推动多模态AI进一步发展。

当下，OpenAI的GPT-4以及Meta的Llama3.2、Mistral的Pixtral、DeepSeek的JanusPro等新兴多模态AI系统快速发展，加速在日常生活中的应用，为人工智能未来发展筑牢基础。

文章版权归作者所有，未经允许请勿转载。