QvQ-Max与2.5 Pro Experimental:游戏场景下推理与多模态能力大比拼

AI快讯3周前发布 niko
4 0
AiPPT - 一键生成ppt

模型版本更新,推理与多模态升级 近期,多个模型有版本更新,如Qwen推出视觉推理模型QvQ-Max,能理解图片视频并分析推理;gemini发布2.5ProExperimental,在推理、写代码和多模态理解上全面提升,在数学和科学基准测试中表现出色。这些模型的更新强化了推理能力,且多模态支持成为重要发展方向,推理能力作为AGI的基石,对模型在各种任务处理及跨模态理解上至关重要。

游戏场景:模型能力的独特试炼场游戏是考核模型能力的特殊场景,虽现阶段模型无法动手操控,但因其多模态素材丰富,成为检验模型的良好选择。一种潜在应用是让模型读取游戏记录制定作战计划,这需要模型具备理解素材、分析计算的能力。为此,对Gemini和Qwen进行测试,上传相同游戏录屏让其整理伤害数值,在这个过程中,两模型展现出对指令理解、上传速度、思维链以及数值统计准确率等方面的差异。

游戏测试:Gemini与Qwen的表现对比在《重返未来:1999》的游戏录屏测试中,Gemini对模糊指令理解更好,上传时间较长但数值统计准确率较高,能连续分析视频并兼顾多个行动主体;Qwen上传迅速,但统计思路存在准确度问题。在总结特殊技能时,两模型思路不同,Qwen按技能类型划分,Gemini以视频结合角色统计。此外,视频材料消耗token较多,而Gemini起始量充足。面对更复杂的王者荣耀视频,两模型虽在数据提取上有困难,但也展现出一定能力,如Gemini能读取音频信息。

推理为基,模型发展前景展望 尽管Gemini和Qwen主打方向不同,但都体现了以推理能力为基础,全面提升不同维度能力的特点。Qwen QvQ-Max团队强调视觉推理的重要性,现实中多种信息形式需要推理能力来理解分析。随着模型推理能力提升,其泛用性增强,“通用型智能”的实现指日可待。

© 版权声明
Trea - 国内首个原生AI IDE