Groundlight开源AI框架,借GRPO强化视觉语言模型推理能力

AI快讯1个月前发布 niko
8 0
AiPPT - 一键生成ppt

Groundlight团队开源全新AI框架,旨在解决视觉领域的复杂视觉推理难题,提升AI从图像中推理深层次信息的能力。当前的视觉语言模型(VLM)在理解图像及完成深度解读任务上存在不足,大型语言模型(LLM)在视觉领域的突破也有限。

为提升VLM的视觉推理能力,团队采用强化学习方法,创新性运用GRPO提高学习效率。此前相关技术很少扩展到VLM领域。研究人员设计了需要同时处理视觉和文本信息的密码破译任务,一个仅有30亿参数的模型达到了96%的准确率,注意力分析显示模型能积极参与视觉输入。

使用GRPO训练VLM在分词和奖励设计方面面临挑战。为缓解分词问题,研究人员在消息字母间添加空格。奖励设计上,使用格式奖励、解码奖励和正确性奖励,仔细平衡以避免模型走“捷径”。

GRPO通过比较多个输出优化学习过程,带来更高稳定性和更平滑学习曲线。研究虽强调VLM在推理任务中的潜力,但也指出复杂视觉模型计算成本高。为此,团队提出选择性模型升级技术,还建议集成预训练模型增强推理能力,这种基于工具的方法兼顾效率与准确性。

Groundlight团队通过集成强化学习技术,特别是GRPO,在增强VLM方面取得显著进展,密码破译任务中模型准确性令人印象深刻。项目和demo链接分别为:https://github.com/groundlight/r1_vlm、https://HuggingFace.co/spaces/Groundlight/grpo-vlm-Decoder 。

© 版权声明
Trea - 国内首个原生AI IDE