在人工智能领域,一项全新的重量级技术宣布推出,打破了年末的宁静。12月12日,科技巨头发布了迄今为止最强大的AI大模型——Gemini 2.0,不仅包含了原生图像生成和音频输出的多模态输出功能,还支持直接调用搜索引擎、地图、Lens等工具,预示着人工智能大模型的竞争格局迈入了一个新的激烈时期。
Gemini 2.0 Flash作为该系列的第一款新模型,其速度是前代1.5 Pro版本的两倍。该模型针对AI代理时代量身打造,主打多模态输出与AI代理技术的结合。基于Gemini 2.0 Flash,推出了一系列AI代理新产品。包括今年5月发布的通用AI助手原型Project Astra,以及能够在浏览器中执行多步骤任务的Project Mariner等。Gemini 2.0的问世,成为了推动AI代理新世界发展的关键一步。
公司首席执行官表示:’如果说Gemini 1.0关乎组织和理解信息,那么Gemini 2.0则关乎于使信息变得更加有用。’这也是Gemini 2.0特别强调AI代理和多模态输出功能的原因。用户可以在桌面端的模型下拉菜单中选择聊天优化版的Gemini 2.0进行体验。开发者则可以通过Google AI Studio和Vertex AI接入Gemini API,开始构建模型。
搜索AI预览功能已开始测试Gemini 2.0,预计Gemini 2.0 Flash将在1月份全面上市,并将推出多种模型尺寸。明年,公司计划将Gemini 2.0整合到更多的产品中。
而Gemini 2.0背后的核心技术——Trillium TPU也同期亮相。Trillium TPU是公司的最强AI芯片,详细介绍了包含可以整合超过10万颗Trillium芯片的Jupiter网络的谷歌云AI超级计算机架构。该芯片不仅在训练大语言模型上性能卓越,而且在AI训练和推理性价比上也更具优势。亚洲的AI大模型公司AI21 Labs已利用Trillium开发语言模型。
同时发布的还有一款名为Deep Research的全新AI工具,该工具以其研究能力著称,相当于人工智能领域的研究生,能够帮助用户在几分钟内完成原本需要数小时的研究工作。用户只需输入问题,它就会创建一个多步骤的研究计划,在用户修改及批准后开始调用Gemini机器人进行深入分析,并生成一份详细的综合报告。该工具目前仅提供给Gemini Advanced订阅者,并计划在移动应用中推广。
Gemini 2.0 Flash已在关键基准测试中显示出速度优势。除了支持图像、视频和音频的多模态输入外,Gemini 2.0 Flash还支持生成图像与文本混合的多模态输出,以及直接调用搜索、代码执行等工具。此外,Multimodal Live API的发布为开发者提供了更动态的交互式应用构建能力。
AI代理方面,公司宣布了一系列实验性功能更新,涉及多个Agent项目。Project Astra是一个全视、全听和全记忆的实验性AI助手,通过记录用户所见所闻,实时处理文本、图像等,回答广泛的问题。得益于Gemini 2.0支持,Project Astra能够实现更优的记忆能力和对话能力,并集成新的工具用途。
Project Mariner则能够在浏览器中完成多步骤的任务,理解屏幕上的信息,并在网络元素的帮助下完成任务,其在真实世界网络任务上的性能表现出色。
公司还在探索集成到GitHub工作流程中的编程Agent Jules和游戏Agent。Jules能够解决问题并执行计划,而游戏Agent则基于屏幕上的动作来推理游戏,并提供操作建议。
Jules和游戏Agent的开发是公司在构建通用AI代理道路上的一个里程碑。公司还在尝试将Gemini 2.0的空间推理功能应用于机器人技术,以提供物理世界的帮助。
与此同时,公司发布了Project Astra更新版本的新演示视频,展示了在伦敦的街头行走中使用该项目的能力。测试者能够通过AI助手获取关于电子邮件、洗衣标签、推荐列表等方面的信息,并进行相应操作。
尽管AI助手仍存在局限性,无法访问电子邮件或照片等个人数据,Project Astra产品经理表示,该产品正在融合当代最强大的信息检索系统。同时,公司正积极与责任与安全委员会合作,识别和了解潜在风险,并通过迭代实施安全培训。
随着Gemini 2.0及其背后的硬件Trillium TPU的普遍可用性,公司将致力于扩展AI训练工作负载、优化训练密集型大模型、提高推理性能以及提升性价比。第三代数据流处理器SparseCore的引入,将嵌入密集型模型的性能提高了2倍。Trillium通过部署众多芯片的扩展实践,证明了其在扩展效率的优势。
总结而言,随着Gemini 2.0的推出和AI代理技术的不断发展,通用人工智能的热度持续升高。从各头部企业的竞争格局来看,这些公司在大模型、云端基础设施、端侧智能方面各具优势。公司凭借对端侧智能的深刻理解,通过推出Agent在各类设备上的应用,进一步强化了其在该领域的领先地位。然而,随着AI系统的发展和应用范围扩大,安全性和风险控制也成为了不可忽视的问题。大模型公司在推动Agent时代来临的同时,也必须牢牢把握安全这一底线。