Qwen2.5-VL引领视觉AI新潮流，多项创新突破来袭

AI快讯2年前 (2025)发布 niko

阿里云通义开源Qwen2.5-VL，带来视觉AI新变革

1月28日消息，阿里云通义千问开源全新的视觉模型Qwen2.5-VL，并推出3B、7B和72B三个尺寸版本。其中，旗舰版Qwen2.5-VL-72B在13项权威评测中荣获视觉理解冠军，超越GPT-4o与Claude3.5。

新的Qwen2.5-VL能更精准地解析图像内容，突破性地支持超1小时的视频理解，可在视频中搜索具体事件，并对不同时间段进行要点总结，助力用户快速提取关键信息。而且无需微调，Qwen2.5-VL就能变身为一个能操控手机和电脑的AI视觉智能体，实现多步骤复杂操作。

Qwen2.5-VL不仅能识别常见物体，还可分析图像中的文本、图表等。此外，它将OCR识别能力提升到新高度，增强多场景、多语言和多方向的文本识别与定位能力，同时在信息抽取能力上大幅增强，满足资质审核、金融商务等数字化、智能化需求。

文章版权归作者所有，未经允许请勿转载。