阿里云开源Qwen2.5-VL-32B-Instruct视觉理解模型,多项性能超越前代

AI快讯4周前发布 niko
0 0
AiPPT - 一键生成ppt

阿里云通义千问开源全新视觉理解模型3月24日,阿里云通义千问对外开源了尺寸更小的视觉理解模型Qwen2.5-VL-32B-Instruct。该模型在多项测试中表现优异,超过72B前代模型,纯文本能力整体也优于GPT-4omini。

Qwen2.5-VL-32B-Instruct的显著优势此模型优势体现在多个方面。研究人员对其输出风格加以调整,回答详尽、格式规范,更契合人类偏好。在数学推理领域,能够应对复杂数学问题。面对图像解析、内容识别、视觉逻辑推导等任务,展现出更高的准确性与细粒度分析能力。

模型的优化与开源情况Qwen2.5-VL-32B-Instruct是在1月底开源的视觉模型Qwen2.5-VL系列基础上,基于强化学习持续优化而来,并采用Apache2.0协议开源。

图片理解能力展示 科技博主SimonWillison测试了该模型的图片理解能力。上传图片后,Qwen2.5-VL-32B-Instruct精准识别出地理特征、分颜色区域等诸多要素。官方博客也展示了其在细粒度图像理解和数学推理方面的表现,如解答包含图片信息的数学问题,以及对几何图形相关问题的分析解答。

基准测试成绩突出 在多项基准测试中,Qwen2.5-VL-32B-Instruct表现卓越,超过Mistral-Small-3.1-24B、Gemma-3-27B-IT以及Qwen2-VL-72B-Instruct等模型。在注重主观用户体验评估的MM-MT-Bench基准测试里,也优于前代Qwen2-VL-72B-Instruct。其纯文本能力在同规模模型中堪称最佳。

未来研究方向展望相较于Qwen2.5-VL系列模型,Qwen2.5-VL-32B在强化学习框架下优化了主观体验和数学推理能力。阿里云通义千问研究团队接下来将聚焦长且有效的视觉推理过程,力求突破视觉模型在复杂多步骤视觉推理任务中的局限。

© 版权声明
Trea - 国内首个原生AI IDE