Google AI新进展:Gemini 2.0带来Agent功能的突破

AI快讯1周前发布 niko
3 0

AI领域深夜惊喜:Google推出Gemini 2.0模型

凛冬将至,正当众人以为AI领域将会迎来一段平静期时,Google却在IMO(国际数学奥林匹克)总决赛前夜,爆出大新闻——Gemini 2.0模型的发布。
在与竞争对手的竞赛中一度落后的Google,终于在这段时间里发布了革新的Gemini 2.0模型。该模型直击Agent功能的空缺领域,旨在提升其对于环境的感知以及决策能力,强化其自适应完成任务的水平。

Gemini 2.0带来的新功能引发关注

Google的此次更新更为激进,一次性公布四个与Agent功能相关的突破:
– Project Astra:在Gemini应用中直接调用搜索引擎和地图服务。
– Project Mariner:浏览器实验性功能,通过提示让用户实现网页浏览和任务执行。
– Jules:嵌入GitHub的编程Agent,可以直接生成代码。
– 游戏Agent:实时解读屏幕画面,并提供AI打法提示。
这些极具未来感的功能让外界对于Agent的到来充满期待。

Gemini 2.0:原生多模态革新

Gemini 2.0采用了原生多模态的训练模式,即在训练阶段将图像、文字、语音等多种编码方式整合输入给模型学习,以此让模型在理解特定事物后,能更灵活地生成不同模态的内容。
此模型的升级进一步强化了原生多模态能力,拥有直接生成图像、音频文件的能力,以及更高效的工具应用能力。
这些新功能展示如下:

Project Mariner的生产力场景革新

作为演示中的亮点,Project Mariner让用户无需额外配置浏览器,仅需简单扩展程序即可享受自动化的网络搜索和任务执行服务。在一个展示中,Chrome利用此功能迅速识别并查找多个公司邮箱,工作效率大大提升。

Jules:自然语言转换代码的新尝试

Jules让用户通过自然语言描述问题,便能生成相应的代码片段,直接融入GitHub项目,这为自然语言编程带来新可能。

游戏Agent:玩家的新伙伴

最为有趣的莫过于游戏Agent。它能实时解读屏幕画面,并直接通过语音交流来提供AI打法提示,为玩家在策略游戏中提供辅助。这也让人看到AI在游戏领域的巨大潜力。

Gemini 2.0 Flash:对话优化版本为日常服务

尽管Gemini 2.0模型的功能依旧处于开发阶段,Google还发布了更实用的Gemini 2.0 Flash模型,关注于提升对话能力,并支持多模态输入与输出,可以生成图文混合内容,以及可控的多语言文本转语音音频。

Project Astra为智能眼镜添翅膀

Google此次更新的重点还包括Project Astra,它极大提升了对话的流畅度,同时增强了记忆力和管理能力,让智能助理能记住更长时间的会话内容,并提供更好的个性化服务。
随着Agent技术的不断成熟,我们看到的不仅是技术的飞跃,更是人类效率提高的契机。来年,各类AI应用和服务的发展将更加突飞猛进,尤其是与Apple Intelligence合作的猜想更是令人期待。
但愿Agent技术的不断进步能为人类工作和日常生活带来更多便利,Google所展示的宏图愿景,已经近在眼前。

© 版权声明

相关文章

暂无评论

暂无评论...