谷歌继o4-mini后,推出了gemini 2.5 Flashpreview版本。此版本作为注重效率的Flash,在大模型竞技排名中并列第二,仅次于自家的Gemini 2.5 Pro,性价比优势显著。
Gemini 2.5 Flash是混合推理模型,用户能自由设定思考深度,有效控制推理成本,适合预算有限的用户。目前,preview版本已在Google AIStUdio和Vertex AI的APi中上线。
在大模型竞技场上,经过3000多轮对战,Gemini 2.5Flash取得1392分,与Grok-3、GPT-4.5等并列第二,仅次于Pro版。在编程、复杂提示和长文本子榜单中,与Pro版并列第一;在WebDev榜单里,位列第七,超越前一代(2.0)的Pro版本。
此外,在“人类最后的考试”测试集中,Gemini 2.5Flash成绩达12.1%。其价格为0.15/0.6/3.5美元每百万输入/输出/推理Token,相比o4-mini更为便宜,在大模型竞技场1400分附近,是最便宜的模型之一。
对于推理过程,Gemini 2.5Flash支持自由深度控制,不设置时也能自行判断思考深度,平衡成本。在HackerNews上,引发热烈讨论,有人认可其性价比,也有人指出其存在“犯懒”问题。
由于与OpenAI的mini类似且上线时间邻近,Gemini 2.5Flash被视为o4-mini的竞争者。从官方成绩单看,在高难度测试集中稍逊于o4-mini,但考虑价格,差距可接受。
实际应用中,编程能力测试里,Gemini 2.5Flash在小球测试变体中表现不佳,o4-mini胜出;数据分析能力测试中,Gemini虽开始代码冗长,但改进后得到正确图像,o4-mini则存在坐标轴文本问题,此轮Gemini胜;多模态理解能力测试中,两款模型都能正确发现最低点和对应时间。总体而言,考虑性价比,Gemini2.5 Flash综合竞争力突出。