百度推新:文心-4.5与推理模型X1亮相在百度发布文心一言两周年之际,全新的文心-4.5和推理模型X1登场,且所有人均可在文心一言官网免费使用这两款模型。
能力侧重:文化趣味与逻辑推理文心-4.5主打有文化、有趣味、有人性,而推理模型X1则聚焦于逻辑推理。知危编辑部选取传统文化、物理模拟、玩梗等多个测试场景,来探究两款新模型的能力水准。
传统文化:文心-4.5尽显底蕴在传统文化测试环节,文心-4.5对文物识别、文言文改写以及经典文化重新理解等方面表现不俗。它能精准识别山西平遥双林寺彩塑、欧阳询《丘师墓志》等文物与书法作品,对唐兽首玛瑙杯等多种文物也能准确判断。在文言文改写中,面对以三国历史人物典故改写《谏太宗十思疏》的要求,文心-4.5不仅事例替换巧妙,还遵循原文基调并补充正面案例,改写能力超高中生水平。
物理模拟:X1的思维与实践针对物理模拟,以多边形内弹跳小球程序为切入点,融合物理学、数学与编程能力。X1在应对编写球在旋转六边形内弹跳程序需求时,虽过程波折,但通过逐步降低要求、迭代优化,最终达成目标。在此过程中,X1思维链有时较长、token消耗大,思考谨慎,会全面考量工具与因素,虽确保逻辑严密,但耗时与token较多,在教育培训场景实用,不过实际生产中需解决重复推导问题。
玩梗尝试:模型的幽默探索在玩梗测试里,文心-4.5和X1对梗图与弱智吧梗进行尝试。梗图方面,部分成功,整体幽默感达入门级别且偏理科思维。弱智吧梗测试中,文心-4.5对部分梗能准确分析漏洞,但也有未能领会精妙之处的情况;X1在一些梗上往玩梗方向思考,却未完全Get到点,不过在个别硬核梗上展现独特理解,还以互联网杠精语气对人形机器人厂商进行锐评,过程中充分“享受”。
综合评价:潜力与提升空间并存综合测试结果,文心-4.5和X1在“人性”理解层面,尤其在传统文化等方面带来诸多惊喜。然而在逻辑推理上,X1与行业顶尖水平存在差距。值得一提的是,X1价格便宜,APi价格仅为DeepSeek的R1一半。若后续能在基础模型等方面优化,推出稍贵版本,有望实现大幅提升。