DeepSeek-R1跨平台稳定性测评引发关注
近期,中国AI公司DeepSeek推出的推理模型DeepSeek-R1在全球备受瞩目,其在第三方平台的稳定性成为科技领域焦点。中国软件评测中心人工智能部牵头的一项跨平台稳定性测试,引发广泛讨论。
测试背景与方式
该测试选取纳米AI搜索、阿里百炼、硅基流动等十余家国内外第三方平台,以SuperCLUE团队开发的20个基础数学推理问题为基准。从响应率、准确性以及推理时间三个维度评估,同时考量免费与付费服务的差异。
测试结果呈现显著差异
测试发现,DeepSeek-R1的稳定性与托管平台紧密相关。纳米AI搜索因接入“满血版”且免费提供,以高响应率和稳定输出获好评,被视为对“AI普及化”理念的实践。而阿里百炼的DeepSeek-R1在处理复杂逻辑任务时,常因显存消耗高出现输出截断,导致客户端卡顿。硅基流动因限制赠金使用并提供稳定付费版本,得到部分用户肯定,显示出付费服务在稳定性上的优势。
用户体验与技术探索
从用户反馈来看,DeepSeek-R1在不同场景下表现有别。部分用户指出其在单次对话输出超3000字时易陷入死循环,特定版本在简单问题上表现异常。不过,也有用户通过APi联网方案优化了使用体验,说明平台外的技术配置对稳定性有影响。
行业意义与用户建议
此次测试暴露了DeepSeek-R1部署的挑战,引发开源模型商业化与稳定性的讨论。业内人士建议用户依需求选托管平台,同时呼吁DeepSeek官方提供更多支持。DeepSeek-R1潜力大,但实际表现因托管环境而异,其未来发展或取决于能否解决稳定性问题。
© 版权声明
文章版权归作者所有,未经允许请勿转载。