谷歌推出升级版人工智能大模型Gemini 2.0，引领AIAgent及多模态技术新浪潮

AI快讯2年前 (2024)发布 niko

科技圈又迎来了一个热门话题，谷歌前沿技术团队宣布了他们的新一代人工智能（AI）大模型 Gemini 2.0 的到来，与此同时，这也标志着AI Agent和多模态技术的又一次飞跃。此模型的发布由CEO皮猜亲自进行了公开宣布。

此次迭代版本的Gemini 2.0版本专为人工智能代理（AI Agent）而设计打造。官方透露目前已经向部分开发者提供封测，并正在积极将其融合到诸如Gemini及搜索等产品线之中。意味着此模型即将被广泛集成并应用于多个场景和平台。

另一个激动人心的消息是Gemini 2.0 Flash实验版模型已经开始在网页端向公众开放，而且移动端版本也在酝酿之中，相信不久的将来就能和大家见面。与此同时，谷歌也响应了高端需求，推出了一项名为“深度研究”的新功能，这一功能将赋予用户以特定研究助理的身份，能根据用户提供的主题自动生成详尽的研究报告。目前此功能已在Gemini Advanced版本中推出。

对于业界来说，此次谷歌抢在某个备受瞩目事件之前发布这款模型，无疑对OpenAI而言是一个巨大的“狙击”行为。伴随市场中Sora产品表现不尽人意的当下，许多人在直播开启前已经开始怀疑OpenAI的未来发展之路。其中，人们热议的话题之一便是“面向智能体时代的新AI模型”。

谷歌首席执行官皮猜、谷歌DeepMind的首席执行官哈萨比斯及首席技术官科雷（Koray Kavukcuoglu）共同撰写了一篇文章，文章中他们将Gemini 2.0的定位描述为“面向智能体时代的AI模型”。他们强调，在多模态方面的新进步和原生工具的使用，将助力构建出更接近通用助手愿景的全新人工智能代理。而在Gemini 2.0 Flash实验版正式上线的同时，谷歌也在Gemini Advanced版本中引入了一项名为“深度研究”的智能体新功能。用户可以将其视作一个科研版的AI搜索工具，通过这个功能可围绕特定主题生成研究报告。这也标志着AI在辅助科研工作方面迈出的新步伐。

而Gemini 2.0的重点不仅仅于此，它的另一个关键词是“多模态”。2.0 Flash试验版不仅能处理图像、视频、音频等多种输入模态，同样支持多模态输出。它所提供的不仅限于简单的图文混合排版，还包括了可控的多语种文本转语音(TTS)输出等高级功能，并可以直接调用本地工具，如谷歌搜索、代码工具及第三方用户定义的功能。透过这些功能的整合展示了其作为AI代理的新面貌。

虽然Gemini 2.0 Flash实验版目前仅对早期访问合作伙伴提供文本转语音和原生图像生成功能，但谷歌宣布将在1月份正式推出更多不同大小版本的模型。由谷歌发布的基准测试对比结果显示，仅仅是Flash实验版的Gemini 2.0便在多模态的图片、视频能力，以及编码、数学等能力上全面超越了Gemini 1.5 Pro 002，并且其速度是1.5 Pro版本的两倍。

谷歌还表示，计划明年年初会将Gemini 2.0扩展到更多旗下产品，比如Project Astra。Project Astra在I/O大会上被展示，旨在与GPT-4o的语音功能进行竞争。此次更新的功能包括更方便的对话能力，能以多种语言和混合语言进行交流并通过更深层次的理解和记忆能力，理解口音和不常见词汇。同时，Project Astra现在将使用谷歌搜索、Lens和地图等工具。此外，Project Astra在记忆力方面也得到了增强，拥有了10分钟的会话记忆，以此为基础，它能够更好地理解用户需求。改进延迟也使得Project Astra能够更贴近人类正常的对话节奏进行理解对话。谷歌还在将Project Astra转移到更多移动终端上，例如眼镜设备。此外，谷歌也正在与游戏开发商合作测试基于Gemini 2.0打造的游戏智能体能力，这些智能体能够根据屏幕上的动作进行游戏推理，并与玩家实时对话提出行动建议。

除了在网页端的使用之外，Gemini 2.0 Flash实验模型还通过Google AI Studio以及Vertex AI的Gemini API向开发者开放。从OpenAI跳槽到谷歌的技术专家Logan Kilpatrick提到，他们在Google AI Studio中创建了全新的体验，展示了Gemini 2.0在视频理解、原生工具使用和空间理解方面的入门应用。

AI技术正在以前所未有的速度发展，而谷歌推出的Gemini 2.0正是其中的代表之一。它不仅代表了AI在处理能力上的提升，更是展示了AI在未来工作中无可取代的潜力与价值。随着Gemini 2.0的深入应用，我们有理由相信，在不久的将来，人们会更多地享受到由AI带来的便利与创新。

# AI快讯

文章版权归作者所有，未经允许请勿转载。