Google AI新进展：Gemini 2.0带来Agent功能的突破

AI快讯2年前 (2024)发布 niko

AI领域深夜惊喜：Google推出Gemini 2.0模型

凛冬将至，正当众人以为AI领域将会迎来一段平静期时，Google却在IMO（国际数学奥林匹克）总决赛前夜，爆出大新闻——Gemini 2.0模型的发布。
在与竞争对手的竞赛中一度落后的Google，终于在这段时间里发布了革新的Gemini 2.0模型。该模型直击Agent功能的空缺领域，旨在提升其对于环境的感知以及决策能力，强化其自适应完成任务的水平。

Gemini 2.0带来的新功能引发关注

Google的此次更新更为激进，一次性公布四个与Agent功能相关的突破：
– Project Astra：在Gemini应用中直接调用搜索引擎和地图服务。
– Project Mariner：浏览器实验性功能，通过提示让用户实现网页浏览和任务执行。
– Jules：嵌入GitHub的编程Agent，可以直接生成代码。
– 游戏Agent：实时解读屏幕画面，并提供AI打法提示。
这些极具未来感的功能让外界对于Agent的到来充满期待。

Gemini 2.0：原生多模态革新

Gemini 2.0采用了原生多模态的训练模式，即在训练阶段将图像、文字、语音等多种编码方式整合输入给模型学习，以此让模型在理解特定事物后，能更灵活地生成不同模态的内容。
此模型的升级进一步强化了原生多模态能力，拥有直接生成图像、音频文件的能力，以及更高效的工具应用能力。
这些新功能展示如下：

Project Mariner的生产力场景革新

作为演示中的亮点，Project Mariner让用户无需额外配置浏览器，仅需简单扩展程序即可享受自动化的网络搜索和任务执行服务。在一个展示中，Chrome利用此功能迅速识别并查找多个公司邮箱，工作效率大大提升。

Jules：自然语言转换代码的新尝试

Jules让用户通过自然语言描述问题，便能生成相应的代码片段，直接融入GitHub项目，这为自然语言编程带来新可能。

游戏Agent：玩家的新伙伴

最为有趣的莫过于游戏Agent。它能实时解读屏幕画面，并直接通过语音交流来提供AI打法提示，为玩家在策略游戏中提供辅助。这也让人看到AI在游戏领域的巨大潜力。

Gemini 2.0 Flash：对话优化版本为日常服务

尽管Gemini 2.0模型的功能依旧处于开发阶段，Google还发布了更实用的Gemini 2.0 Flash模型，关注于提升对话能力，并支持多模态输入与输出，可以生成图文混合内容，以及可控的多语言文本转语音音频。

Project Astra为智能眼镜添翅膀

Google此次更新的重点还包括Project Astra，它极大提升了对话的流畅度，同时增强了记忆力和管理能力，让智能助理能记住更长时间的会话内容，并提供更好的个性化服务。
随着Agent技术的不断成熟，我们看到的不仅是技术的飞跃，更是人类效率提高的契机。来年，各类AI应用和服务的发展将更加突飞猛进，尤其是与Apple Intelligence合作的猜想更是令人期待。
但愿Agent技术的不断进步能为人类工作和日常生活带来更多便利，Google所展示的宏图愿景，已经近在眼前。

# AI快讯

文章版权归作者所有，未经允许请勿转载。