Groundlight开源AI框架，借GRPO强化视觉语言模型推理能力

AI快讯1年前 (2025)发布 niko

Groundlight团队开源全新AI框架，旨在解决视觉领域的复杂视觉推理难题，提升AI从图像中推理深层次信息的能力。当前的视觉语言模型（VLM）在理解图像及完成深度解读任务上存在不足，大型语言模型（LLM）在视觉领域的突破也有限。

为提升VLM的视觉推理能力，团队采用强化学习方法，创新性运用GRPO提高学习效率。此前相关技术很少扩展到VLM领域。研究人员设计了需要同时处理视觉和文本信息的密码破译任务，一个仅有30亿参数的模型达到了96%的准确率，注意力分析显示模型能积极参与视觉输入。

使用GRPO训练VLM在分词和奖励设计方面面临挑战。为缓解分词问题，研究人员在消息字母间添加空格。奖励设计上，使用格式奖励、解码奖励和正确性奖励，仔细平衡以避免模型走“捷径”。

GRPO通过比较多个输出优化学习过程，带来更高稳定性和更平滑学习曲线。研究虽强调VLM在推理任务中的潜力，但也指出复杂视觉模型计算成本高。为此，团队提出选择性模型升级技术，还建议集成预训练模型增强推理能力，这种基于工具的方法兼顾效率与准确性。

Groundlight团队通过集成强化学习技术，特别是GRPO，在增强VLM方面取得显著进展，密码破译任务中模型准确性令人印象深刻。项目和demo链接分别为：https://github.com/groundlight/r1_vlm、https://HuggingFace.co/spaces/Groundlight/grpo-vlm-Decoder 。

# AI快讯

文章版权归作者所有，未经允许请勿转载。