在智能体领域,Manus背后的“蝴蝶效应”显著,成功带动了整个赛道的热度,开源复现潮与商业闭源产品竞争态势同时出现。
目前进度较快的两个项目,在Manus发布当日就公布了复现代码。其中,来自国内开源社区CAMEL-AI团队的OWL项目,将DeepSeek模型整合到多智能体协作框架中。OWL在智能体测试基准GAIA的验证集上表现出色,其LEVEl1分数81.13超过OpenAI的Deep ReseARCh,与Manus的86.5接近,虽Level 2和Level 3分数还有差距,但团队有信心提升。
与此同时,Claude团队推出的模型上下文协议MCP受到关注,因其被视为打造类似Manus产品的有效途径。
Manus自身也取得进展,官方社交媒体账号恢复后表示将发布更多演示和更新。该产品通过发放邀请码的方式在海外走红,海外用户试用后反应良好,付费意愿较强,不少用户用其完成收集资料、编写部署个人主页等任务,不过也存在速度慢和邀请码难获取的问题。
值得一提的是,作为Manus出圈的影响之一,GAIA基准测试正成为智能体类产品竞争焦点。GAIA由多方推出,参与人员阵容强大,其测试由多种复杂问题构成,分三个难度级别,考验智能体系统多种能力。人类在Level2和Level 3上有较高成功率,目前测试集排行榜中,多个商业闭源系统与Manus分数相近,而Manus在Level 3分数领先明显。
从深度学习发展历程看,每个时代都有代表性榜单指引技术发展,如今“智能体刷GAIA”似成行业新共识,未来或许还能期待AgentArena智能体竞技场的出现。
相关链接:OpenManus:https://github.com/mannaandPoem/OpenManus;OWL:https://github.com/camel-ai/owl;GAIA Bencmark:https://HuggingFace.co/spaces/gaia-benchmark/leaderboardhttps://arxiv.org/abs/2311.12983