北京时间2月25日,AnthroPic推出的Claude 3.7 Sonnet与Claude Code,在AI技术领域激起千层浪。ClaudeCode作为面向代码编辑、测试及命令行交互的AI工具,基于Claude 3.7Sonnet模型打造,一经亮相便引发开发者广泛讨论。不少开发者尝试开发后,在X(原Twitter)上赞叹不已。有人用一句话创建出仿《我的世界》游戏,有人写出动效自然的天气卡片,还有人直接生成带光影变化的3D城市。
从AI发展的产品策略视角看,Claude 3.7Sonnet作为全球首个混合推理模型,更为引人注目。它具备标准模型和扩展模型(高级推理)两种模式,前者如Claude 3.5Sonnet、(OpenAI)GPT-4o、DeepSeek V3等「传统模型」,后者像DeepSeek R1、OpenAIo1这类「推理模型」。与OpenAI、DeepSeek将两种模型独立运行不同,Claude 3.7Sonnet选择「融合」,既能如传统模型般快速回答,又能在复杂问题上调用深层推理能力思考并给出更佳答案,打破了AI在「快」与「准」之间的艰难抉择,试图定义AI未来产品形态。
Claude 3.7Sonnet的强大,从各类Benchmark跑分中可直观体现。在MMLU、GSM8K和HumanEval等测试里,其表现全面超越3.5版本,部分任务上与Claude3 Opus(教师模型)不相上下。甚至在《宝可梦》游戏测试中,也展现出超越前代模型的决策与规划能力。在代码理解等高度依赖推理能力的任务上,Claude3.7Sonnet实现跨代跃迁,软件开发能力大幅提升。在实际应用中,它能为开发者提供更高效代码逻辑,检测潜在安全漏洞并提出修复方案。数学推理方面也补齐短板,多步推理题目正确率提高,还能自我检查修正推导过程。这一切提升,都源于其核心变革——混合推理模式,实现「一个模型,两种思考方式」,兼具快速反应与深入思考能力。
OpenAI o1、DeepSeekR1等推理模型虽在数学、代码等任务上表现出色,但思考过程长、响应延迟明显。日常聊天或信息检索时,这种等待成本过高,且「幻觉」问题未减反增。用户不得不在不同模型间切换以平衡「速度」与「深度」。而Claude3.7Sonnet选择「混合推理」模式,AI可在标准模式和扩展模式间自由切换。这既让普通用户摆脱模型选择困扰,又使开发者能灵活调整AI思考方式。日常任务中,Claude3.7 Sonnet响应流畅;高复杂度任务时,可按需「深度思考」。开发者在不同场景下也能灵活调整模型推理深度。
混合推理模式虽存在AI判断任务是否需「深度推理」可能出错的问题,但从产品策略看,极有可能成为AI未来主流趋势。若Anthropic能优化动态判断精准度,让开发者更灵活调整推理策略,「混合推理模式」或许会成为大模型标准配置,届时其他大模型厂商可能跟进,推动AI产品范式转变。