阿里云开源Qwen2.5-VL-32B-Instruct视觉理解模型，多项性能超越前代

阿里云通义千问开源全新视觉理解模型3月24日，阿里云通义千问对外开源了尺寸更小的视觉理解模型Qwen2.5-VL-32B-Instruct。该模型在多项测试中表现优异，超过72B前代模型，纯文本能力整体也优于 GPT-4omini。

Qwen2.5-VL-32B-Instruct的显著优势此模型优势体现在多个方面。研究人员对其输出风格加以调整，回答详尽、格式规范，更契合人类偏好。在数学推理领域，能够应对复杂数学问题。面对图像解析、内容识别、视觉逻辑推导等任务，展现出更高的准确性与细粒度分析能力。

模型的优化与开源情况Qwen2.5-VL-32B-Instruct是在1月底开源的视觉模型Qwen2.5-VL系列基础上，基于强化学习持续优化而来，并采用Apache2.0协议开源。

图片理解能力展示 科技博主SimonWillison测试了该模型的图片理解能力。上传图片后，Qwen2.5-VL-32B-Instruct精准识别出地理特征、分颜色区域等诸多要素。官方博客也展示了其在细粒度图像理解和数学推理方面的表现，如解答包含图片信息的数学问题，以及对几何图形相关问题的分析解答。

基准测试成绩突出 在多项基准测试中，Qwen2.5-VL-32B-Instruct表现卓越，超过Mistral-Small-3.1-24B、Gemma-3-27B-IT以及Qwen2-VL-72B-Instruct等模型。在注重主观用户体验评估的MM-MT-Bench基准测试里，也优于前代Qwen2-VL-72B-Instruct。其纯文本能力在同规模模型中堪称最佳。

未来研究方向展望相较于Qwen2.5-VL系列模型，Qwen2.5-VL-32B在强化学习框架下优化了主观体验和数学推理能力。阿里云通义千问研究团队接下来将聚焦长且有效的视觉推理过程，力求突破视觉模型在复杂多步骤视觉推理任务中的局限。

# AI快讯

文章版权归作者所有，未经允许请勿转载。