谷歌推出Gemma 3开源AI模型,小模型也有大能量

AI快讯3个月前发布 niko
10 0
AiPPT - 一键生成ppt

谷歌发布Gemma 3开源AI模型

3月12日,谷歌宣布推出Gemma 3开源AI模型,该模型基于与gemini 2.0相同的研究和技术构建。Gemma3是一组轻量级模型,开发者可以在手机、笔记本电脑以及工作站等设备上直接快速运行。

Gemma 3的性能优势

谷歌表示,Gemma3“以其尺寸提供了最先进的性能”,并且优于LLaMA-405B、DeepSeek-V3和o3-mini等领先的LLM。具体来说,Gemma 327B在Chatbot Arena Elo分数测试中排名第二,仅次于DeepSeek-R1。

Gemma 3的新功能

Gemma3具有多项新功能,包括构建全球最佳单加速器模型、支持140种语言、创建具备高级文本和视觉推理能力的AI、通过扩展的上下文窗口处理复杂任务、使用函数调用创建AI驱动的工作流以及通过量化模型实现更快的高性能。

模型架构优化

Gemma3在架构上进行了两方面改进:下文长度扩展和预训练优化。通过采用5:1的局部/全局层交错机制、增加“局部注意力层”的比例、提升全局自注意力层的RoPE基频等方式,Gemma3减少了长上下文时KV缓存爆炸问题,提升了模型的性能。

网友热议

Gemma 3发布后,迅速在Hacker News和Reddit等平台上引发热议。有的网友对Gemma 3 27B模型在LLMArena上的得分表示难以置信,也有开发者对谷歌的技术创新表示感谢。

小模型和蒸馏工艺兴起

自谷歌于2024年2月首次发布Gemma以来,外界对小型语言模型的兴趣与日俱增。与传统的大模型相比,小模型在特定任务中表现出色,尤其是在资源有限的环境中。蒸馏工艺作为一种将大型模型的知识转移到小型模型的技术,正逐渐成为企业优化AI部署的重要手段。

© 版权声明
Trea - 国内首个原生AI IDE