谷歌Gemini 2.0模型引领多模态智能体革新

AI快讯1个月前发布 niko
13 0

谷歌Gemini 2.0模型引领多模态智能体革新

昨日深夜,智能体领域迎来一大突破,谷歌Gemini 2.0强势亮相,标志着智能体革命的到来。原生多模态模型的多项惊人演示预示着智能体时代,谷歌已经走在行业前列。

智能体浪潮中,谷歌的风头再起。
谷歌高管齐发声,宣布新一代原生多模态模型Gemini 2.0 Flash正式发布,标志着Gemini正式迈入2.0时代。

命名分析与性能对比
从命名推测,Gemini 2.0 Flash作为新系列的基础版,但其性能已经超越上一代的1.5 Pro,速度提升显著。它在性能上完全超越了o1-preview、o1-mini,仅次于GPT-4o(2024-11-20)。
此外,2.0 Flash展示出色的多语言技能,并能原生接入谷歌搜索等工具。

编码能力突出
在编码领域,Gemini 2.0 Flash在SWE-bench Verified基准上直接击败完整版o1,显示其在编码方面的优势。

基于Gemini 2.0的智能体创新
谷歌此次还带来基于Gemini 2.0的一系列智能体创新,包括:

  • 通用AI助手Project Astra
  • 浏览器交互智能体Project Mariner
  • 开发者AI代码智能体Jules
  • 游戏辅助智能体
  • 机器人智能体

对于AI智能体而言,2025年将是关键一年,谷歌将凭借Gemini 2.0构建自己的智能体工作流。

Gemini 2.0的强大——迄今最强AI模型
作为第一批原生多模态模型,Gemini 1.0和1.5已经为我们展示了多模态和长上下文的能力。今天,谷歌发布的下一代模型Gemini 2.0,旨在构建接近通用助手的全新AI智能体。

谷歌计划将Gemini 2.0的高级推理功能引入AI Overviews,解决更复杂的主题和多步骤问题,包括高级数学方程、多模态查询和编码。

Gemini 2.0的技术进步
Gemini 2.0的进步得益于谷歌十年全栈式AI创新的投资。基于定制硬件如第六代TPU Trillium构建的Gemini 2.0,在训练和推理上获得TPU的全面支持。

Gemini 2.0 Flash——原生多模态
谷歌今日发布Gemini 2.0系列的首个模型——Gemini 2.0 Flash的实验版本。基于深受欢迎的1.5 Flash,Gemini 2.0 Flash提供了更强劲的性能。

Gemini 2.0 Flash在关键基准测试上超越了1.5 Pro,并实现速度翻倍。除了多模态输入外,2.0 Flash支持多模态输出,包括图文混合内容和多语言文本转语音功能,并能原生调用多种工具。

Gemini 2.0 Flash的开放与应用
目前,Gemini 2.0 Flash Experimental在Google AI Studio和Vertex AI平台上通过API向开发者开放。文本转语音、原生图像生成功能限首批合作伙伴使用。

开发多模态实时API,支持实时音频、视频流输入,并能集成多种工具组合,支持开发者构建动态交互式应用。

对于普通用户而言,2.0 Flash Experimental网页端已启用,移动端即将上线。正式版模型将于2025年1月推出,提供更多模型规模选择。

开启智能体新纪元
Gemini 2.0 Flash的面世代表着AI交互的全新阶段。Gemini 2.0 Flash拥有原生用户交互界面的能力,并在多模态推理、长文本理解等方面取得技术突破。

AI智能体的实际应用
谷歌通过原型创新,打造原生用户界面新体验,Project Astra探索通用AI助手的未来,Project Mariner探索人类与智能体交互的未来方向,Jules为开发者打造的AI代码智能体。

Project Astra的实际应用
今年I/O大会上,Project Astra首次亮相,其在视觉识别和语音交互上的表现突出。得到Gemini 2.0的加持后,Project Astra在对话能力、工具集成、记忆能力和响应速度上得到改进。

谷歌还计划将这些功能引入更多产品,并扩展到智能眼镜等设备。

Project Mariner的探索
Project Mariner是一个基于Gemini 2.0构建的早期研究原型,从浏览器入手,探索人工智能与人类交互的未来。

Project Mariner在信息理解和分析上表现出色,能全面感知浏览器屏幕上的信息。在WebVoyager基准测试中取得令人惊艳的成绩单。

Jules—开发者的AI智能体
随着AI代码助手的迅速发展,Jules作为由Gemini 2.0驱动的AI代码智能体,可以异步工作并与GitHub工作流程集成,处理bug修复等耗时任务。

游戏、机器人AI智能体的应用
谷歌基于Gemini 2.0开发了新的AI智能体,能协助玩家在视频游戏的虚拟世界中探索,并与顶尖游戏开发商合作,深入研究AI智能体的运作机制。

深度研究,个人研究助理
谷歌还推出了名为Deep Research的研究助理,并在Gemini Advanced中上线,它能够深入研究复杂的主题,创建报告,并提供相关来源的链接。

参考资料:
谷歌Gemini AI更新
DeepMind Project Astra

© 版权声明

相关文章

暂无评论

暂无评论...