3月28日,AI领域迎来重要时刻,阿里与字节同时发布大模型升级成果。一边是阿里推出视觉推理模型QVQ-Max,另一边是字节豆包开启新版「深度思考」测试,支持「边想边搜」。
同期,多家主流大模型也纷纷更新。DeepSeek发布V3-0324版本,推理、写作等能力提升;Google推出gemini-2.5-Pro,能力全面增强;OpenAI升级GPT-4o图像生成功能,引发广泛关注。
这一轮大模型更新,恰似一场全方位能力升级赛。从图像生成到视觉推理,各模型不仅比拼功能与质量,还在为「智能体时代」夯实基础。
阿里QVQ-Max:视觉推理新高度阿里在视觉推理领域布局已久。去年12月推出QVQ-72B-Preview,今年1月为雷鸟创新定制模型。此次QVQ-Max全面升级,能理解图表、照片和视频,在多模态基准测试中表现出色,已上线Qwen Chat。
豆包新版「深度思考」:推理进阶新体验字节豆包测试新版「深度思考」,支持在思维链条展开时动态搜索,在推理过程中多次触发搜索节点,弥补复杂问题求解短板。
DeepSeek-V3:小版本升级大提升DeepSeek-V3的0324小版本升级,借鉴DeepSeek-R1强化学习技术,优化推理、写作和编程能力,在前端开发和文本创作方面表现更佳。
Gemini 2.5 Pro:谷歌的全能新模型 Google的Gemini 2.5Pro全面升级,在多方面能力增强,在大模型竞技场领先,编码和图像生成能力突出,推动大语言模型向智能体演进。
GPT-4o:原生图片生成引热潮OpenAI为GPT-4o升级,提高解决复杂问题能力,原生图像生成功能备受关注,提升了对复杂指令的理解和图文混排渲染的可控性。
这一轮升级表明,大模型正全方位补齐能力,聚焦更强推理链条、更高质量内容生成和更接近智能体形态的系统调度能力,「智能体化」成为新的竞争起点。