QvQ-Max与2.5 Pro Experimental：游戏场景下推理与多模态能力大比拼

模型版本更新，推理与多模态升级 近期，多个模型有版本更新，如Qwen推出视觉推理模型QvQ-Max，能理解图片视频并分析推理；gemini发布2.5ProExperimental，在推理、写代码和多模态理解上全面提升，在数学和科学基准测试中表现出色。这些模型的更新强化了推理能力，且多模态支持成为重要发展方向，推理能力作为AGI的基石，对模型在各种任务处理及跨模态理解上至关重要。

游戏场景：模型能力的独特试炼场游戏是考核模型能力的特殊场景，虽现阶段模型无法动手操控，但因其多模态素材丰富，成为检验模型的良好选择。一种潜在应用是让模型读取游戏记录制定作战计划，这需要模型具备理解素材、分析计算的能力。为此，对Gemini和Qwen进行测试，上传相同游戏录屏让其整理伤害数值，在这个过程中，两模型展现出对指令理解、上传速度、思维链以及数值统计准确率等方面的差异。

游戏测试：Gemini与Qwen的表现对比在《重返未来：1999》的游戏录屏测试中，Gemini对模糊指令理解更好，上传时间较长但数值统计准确率较高，能连续分析视频并兼顾多个行动主体；Qwen上传迅速，但统计思路存在准确度问题。在总结特殊技能时，两模型思路不同，Qwen按技能类型划分，Gemini以视频结合角色统计。此外，视频材料消耗token较多，而Gemini起始量充足。面对更复杂的王者荣耀视频，两模型虽在数据提取上有困难，但也展现出一定能力，如Gemini能读取音频信息。

推理为基，模型发展前景展望 尽管Gemini和Qwen主打方向不同，但都体现了以推理能力为基础，全面提升不同维度能力的特点。Qwen QvQ-Max团队强调视觉推理的重要性，现实中多种信息形式需要推理能力来理解分析。随着模型推理能力提升，其泛用性增强，“通用型智能”的实现指日可待。

# AI快讯

文章版权归作者所有，未经允许请勿转载。