全新AI模型亮相引领智能代理技术新篇章

在人工智能领域，一项全新的重量级技术宣布推出，打破了年末的宁静。12月12日，科技巨头发布了迄今为止最强大的AI大模型——Gemini 2.0，不仅包含了原生图像生成和音频输出的多模态输出功能，还支持直接调用搜索引擎、地图、Lens等工具，预示着人工智能大模型的竞争格局迈入了一个新的激烈时期。

Gemini 2.0 Flash作为该系列的第一款新模型，其速度是前代1.5 Pro版本的两倍。该模型针对AI代理时代量身打造，主打多模态输出与AI代理技术的结合。基于Gemini 2.0 Flash，推出了一系列AI代理新产品。包括今年5月发布的通用AI助手原型Project Astra，以及能够在浏览器中执行多步骤任务的Project Mariner等。Gemini 2.0的问世，成为了推动AI代理新世界发展的关键一步。

公司首席执行官表示：’如果说Gemini 1.0关乎组织和理解信息，那么Gemini 2.0则关乎于使信息变得更加有用。’这也是Gemini 2.0特别强调AI代理和多模态输出功能的原因。用户可以在桌面端的模型下拉菜单中选择聊天优化版的Gemini 2.0进行体验。开发者则可以通过Google AI Studio和Vertex AI接入Gemini API，开始构建模型。

搜索AI预览功能已开始测试Gemini 2.0，预计Gemini 2.0 Flash将在1月份全面上市，并将推出多种模型尺寸。明年，公司计划将Gemini 2.0整合到更多的产品中。

而Gemini 2.0背后的核心技术——Trillium TPU也同期亮相。Trillium TPU是公司的最强AI芯片，详细介绍了包含可以整合超过10万颗Trillium芯片的Jupiter网络的谷歌云AI超级计算机架构。该芯片不仅在训练大语言模型上性能卓越，而且在AI训练和推理性价比上也更具优势。亚洲的AI大模型公司AI21 Labs已利用Trillium开发语言模型。

同时发布的还有一款名为Deep Research的全新AI工具，该工具以其研究能力著称，相当于人工智能领域的研究生，能够帮助用户在几分钟内完成原本需要数小时的研究工作。用户只需输入问题，它就会创建一个多步骤的研究计划，在用户修改及批准后开始调用Gemini机器人进行深入分析，并生成一份详细的综合报告。该工具目前仅提供给Gemini Advanced订阅者，并计划在移动应用中推广。

Gemini 2.0 Flash已在关键基准测试中显示出速度优势。除了支持图像、视频和音频的多模态输入外，Gemini 2.0 Flash还支持生成图像与文本混合的多模态输出，以及直接调用搜索、代码执行等工具。此外，Multimodal Live API的发布为开发者提供了更动态的交互式应用构建能力。

AI代理方面，公司宣布了一系列实验性功能更新，涉及多个Agent项目。Project Astra是一个全视、全听和全记忆的实验性AI助手，通过记录用户所见所闻，实时处理文本、图像等，回答广泛的问题。得益于Gemini 2.0支持，Project Astra能够实现更优的记忆能力和对话能力，并集成新的工具用途。

Project Mariner则能够在浏览器中完成多步骤的任务，理解屏幕上的信息，并在网络元素的帮助下完成任务，其在真实世界网络任务上的性能表现出色。

公司还在探索集成到GitHub工作流程中的编程Agent Jules和游戏Agent。Jules能够解决问题并执行计划，而游戏Agent则基于屏幕上的动作来推理游戏，并提供操作建议。

Jules和游戏Agent的开发是公司在构建通用AI代理道路上的一个里程碑。公司还在尝试将Gemini 2.0的空间推理功能应用于机器人技术，以提供物理世界的帮助。

与此同时，公司发布了Project Astra更新版本的新演示视频，展示了在伦敦的街头行走中使用该项目的能力。测试者能够通过AI助手获取关于电子邮件、洗衣标签、推荐列表等方面的信息，并进行相应操作。

尽管AI助手仍存在局限性，无法访问电子邮件或照片等个人数据，Project Astra产品经理表示，该产品正在融合当代最强大的信息检索系统。同时，公司正积极与责任与安全委员会合作，识别和了解潜在风险，并通过迭代实施安全培训。

随着Gemini 2.0及其背后的硬件Trillium TPU的普遍可用性，公司将致力于扩展AI训练工作负载、优化训练密集型大模型、提高推理性能以及提升性价比。第三代数据流处理器SparseCore的引入，将嵌入密集型模型的性能提高了2倍。Trillium通过部署众多芯片的扩展实践，证明了其在扩展效率的优势。

总结而言，随着Gemini 2.0的推出和AI代理技术的不断发展，通用人工智能的热度持续升高。从各头部企业的竞争格局来看，这些公司在大模型、云端基础设施、端侧智能方面各具优势。公司凭借对端侧智能的深刻理解，通过推出Agent在各类设备上的应用，进一步强化了其在该领域的领先地位。然而，随着AI系统的发展和应用范围扩大，安全性和风险控制也成为了不可忽视的问题。大模型公司在推动Agent时代来临的同时，也必须牢牢把握安全这一底线。

# AI快讯

文章版权归作者所有，未经允许请勿转载。

全新AI模型亮相 引领智能代理技术新篇章

全新AI模型亮相引领智能代理技术新篇章