谷歌于昨日夜里,向公众发布了迄今为止“功能最强大”的人工智能模型套件Gemini 2.0。去年12月,谷歌开启代理型AI新时代,发布Gemini 2.0Flash实验版本,其为开发者群体打造,具有低延迟、高性能等优势。

今年早些时候,谷歌在Google AI Studio中更新2.0 Flash ThinkingExperimental,结合Flash模型速度与复杂问题推理能力,提升性能。上周,谷歌面向全体Gemini应用用户发布2.0Flash更新版本。如今,通过Google AI Studio和Vertex AI中的Gemini API向公众发布更新后的Gemini 2.0Flash,开发人员可用于构建生产级应用程序。
同时,谷歌发布Gemini 2.0Pro的实验版本,这是旗下编码性能最强、最善于处理复杂提示词的大模型。除在特定平台使用外,也将在Gemini应用中面向GeminiAdvanced用户开放。此外,谷歌还公开预览最具成本效益的模型方案Gemini 2.0 Flash-Lite。并且,2.0 Flash ThinkingExperimental将添加在桌面和移动设备端的模型下拉菜单中。所有发布模型都支持带有文本输出的多模态输入,未来通用版本还将支持更多模态。

Flash系列模型在I/O 2024大会首度亮相,广受开发者欢迎。Gemini 2.0Flash功能全面,包括原生工具使用、100万个token上下文窗口和多模式输入,目前支持文本输出,有图像和音频输出功能,未来还将推出MultimodalLive API。现在,2.0Flash在谷歌AI产品中面向更多用户发布,性能提升,图像生成与文生语音等功能也即将推出。感兴趣用户可通过特定途径体验Gemini 2.0。
在分享早期实验版本过程中,谷歌收到开发人员反馈,作为回应,发布Gemini 2.0 Pro的实验版本。与其他大模型相比,Gemini 2.0 ProExperimental编码性能和复杂提示词处理能力强,能更好理解并推理世界知识,拥有谷歌旗下最大上下文窗口,可容纳200万token,还可调用其他工具。目前,该模型以实验形式向特定开发者及GeminiAdvanced用户开放,用户可通过模型下拉菜单体验。

谷歌推出的2.0 Flash-Lite质量优于1.5 Flash,且保持速度和成本优势,在多数基准测试中表现更优。与2.0Flash一样,它的上下文窗口可容纳100万token并支持多模态输入,例如能为大量照片生成标题,成本较低。目前,Gemini 2.0 Flash-Lite已在相关平台提供公开预览版。
谷歌首席科学家Jeff Dean盛赞Gemini 2.0 Pro的编程能力。InfoQ旗下作者试用后表示,Gemini 2.0Flash在多方面表现优于DeepSeek V3和GPT 4o-mini。也有用户进行性能比较,结果显示Gemini 2.0 Pro排名第一,2.0Flash排名第三,2.0 FlashLite挤进前十。不过,基于Gemini衍生的产品遭用户吐槽,如截断输入文本、上传功能受限、版本使用限制条件复杂、API杂乱等问题。

大模型的下一步目标是让AI能力无限接近人类水平。谷歌表示一直在开发代理模型,Gemini2.0在多模态性和原生工具使用方面取得进展。Anthropic公司称其AIAgent能像人类一样使用计算机完成复杂任务。OpenAI也发布类似功能,如Operator可自动执行任务,Deep Research允许AIAgent编写研究报告。