五大模型集体上新，角逐智能体时代

AI快讯1年前 (2025)发布 niko

3月28日，AI领域迎来重要时刻，阿里与字节同时发布大模型升级成果。一边是阿里推出视觉推理模型QVQ-Max，另一边是字节豆包开启新版「深度思考」测试，支持「边想边搜」。

同期，多家主流大模型也纷纷更新。DeepSeek发布V3-0324版本，推理、写作等能力提升；Google推出gemini-2.5-Pro，能力全面增强；OpenAI升级 GPT-4o图像生成功能，引发广泛关注。

这一轮大模型更新，恰似一场全方位能力升级赛。从图像生成到视觉推理，各模型不仅比拼功能与质量，还在为「智能体时代」夯实基础。

阿里QVQ-Max：视觉推理新高度阿里在视觉推理领域布局已久。去年12月推出QVQ-72B-Preview，今年1月为雷鸟创新定制模型。此次QVQ-Max全面升级，能理解图表、照片和视频，在多模态基准测试中表现出色，已上线Qwen Chat。

豆包新版「深度思考」：推理进阶新体验字节豆包测试新版「深度思考」，支持在思维链条展开时动态搜索，在推理过程中多次触发搜索节点，弥补复杂问题求解短板。

DeepSeek-V3：小版本升级大提升DeepSeek-V3的0324小版本升级，借鉴DeepSeek-R1强化学习技术，优化推理、写作和编程能力，在前端开发和文本创作方面表现更佳。

Gemini 2.5 Pro：谷歌的全能新模型 Google的Gemini 2.5Pro全面升级，在多方面能力增强，在大模型竞技场领先，编码和图像生成能力突出，推动大语言模型向智能体演进。

GPT-4o：原生图片生成引热潮OpenAI为GPT-4o升级，提高解决复杂问题能力，原生图像生成功能备受关注，提升了对复杂指令的理解和图文混排渲染的可控性。

这一轮升级表明，大模型正全方位补齐能力，聚焦更强推理链条、更高质量内容生成和更接近智能体形态的系统调度能力，「智能体化」成为新的竞争起点。

文章版权归作者所有，未经允许请勿转载。