百度新模型文心-4.5与X1多维度能力测试展示

AI快讯1年前 (2025)发布 niko

百度推新：文心-4.5与推理模型X1亮相在百度发布文心一言两周年之际，全新的文心-4.5和推理模型X1登场，且所有人均可在文心一言官网免费使用这两款模型。

能力侧重：文化趣味与逻辑推理文心-4.5主打有文化、有趣味、有人性，而推理模型X1则聚焦于逻辑推理。知危编辑部选取传统文化、物理模拟、玩梗等多个测试场景，来探究两款新模型的能力水准。

传统文化：文心-4.5尽显底蕴在传统文化测试环节，文心-4.5对文物识别、文言文改写以及经典文化重新理解等方面表现不俗。它能精准识别山西平遥双林寺彩塑、欧阳询《丘师墓志》等文物与书法作品，对唐兽首玛瑙杯等多种文物也能准确判断。在文言文改写中，面对以三国历史人物典故改写《谏太宗十思疏》的要求，文心-4.5不仅事例替换巧妙，还遵循原文基调并补充正面案例，改写能力超高中生水平。

物理模拟：X1的思维与实践针对物理模拟，以多边形内弹跳小球程序为切入点，融合物理学、数学与编程能力。X1在应对编写球在旋转六边形内弹跳程序需求时，虽过程波折，但通过逐步降低要求、迭代优化，最终达成目标。在此过程中，X1思维链有时较长、token消耗大，思考谨慎，会全面考量工具与因素，虽确保逻辑严密，但耗时与token较多，在教育培训场景实用，不过实际生产中需解决重复推导问题。

玩梗尝试：模型的幽默探索在玩梗测试里，文心-4.5和X1对梗图与弱智吧梗进行尝试。梗图方面，部分成功，整体幽默感达入门级别且偏理科思维。弱智吧梗测试中，文心-4.5对部分梗能准确分析漏洞，但也有未能领会精妙之处的情况；X1在一些梗上往玩梗方向思考，却未完全Get到点，不过在个别硬核梗上展现独特理解，还以互联网杠精语气对人形机器人厂商进行锐评，过程中充分“享受”。

综合评价：潜力与提升空间并存综合测试结果，文心-4.5和X1在“人性”理解层面，尤其在传统文化等方面带来诸多惊喜。然而在逻辑推理上，X1与行业顶尖水平存在差距。值得一提的是，X1价格便宜，APi价格仅为DeepSeek的R1一半。若后续能在基础模型等方面优化，推出稍贵版本，有望实现大幅提升。

# AI快讯

文章版权归作者所有，未经允许请勿转载。