近期,国内AI大模型领域略显沉寂。此前备受瞩目的DeepSeek -R2尚无确切进展,AI四小龙也未有新成果推出。大厂虽将精力转向应用,但也未出现令人惊艳的产品。在线大模型进展缓慢,本地大模型更是停滞不前。
在此背景下,谷歌DeepMind上周宣布发布并开源全新端侧多模态大模型 Gemma 3n。谷歌表示,该模型代表了移动设备端AI的重大进步,能为端侧设备赋予强大多模态功能,让用户体验到云端先进模型的高效处理性能。
Gemma 3n 是利用 MatFormer架构打造的轻量化端侧大模型,通过嵌套式结构实现低内存消耗设计。官方推出了5B(E2B)和8B(E4B)两种型号,但其VRAM占用与2B和4B相当,最低仅需2GB。
与常规文本剪裁模型不同,Gemma 3n原生支持图像、音视频等多种输入模态,可实现自动语音识别(ASR)和自动语音翻译(AST),还能完成图像和视频理解任务,这种原生的多模态、多语言设计,非常适合移动端侧设备。
为方便用户使用,Google上线了 Google AI Edge Gallery应用,这是Google首次尝试将轻量AI推理带入本地设备。该应用支持在手机上直接运行来自HuggingFace平台的开源AI模型,目前已在Android平台开放下载。用户完成大模型加载后,可利用该应用实现对话式AI、图像理解等功能,还能导入自定义LiteRT格式模型,无需联网即可调用手机本地算力。
实测环节中,测试人员选择了 Gemma 3n – 4B 、通义千问的Qwen2.5 – 1.5B以及Qwen3 – 4BGGUF进行测试。在经典的草莓问题、误导问题、地理常识问题和文本处理任务中,Gemma 3n – 4B 在文本处理、逻辑推理能力上与Qwen3 -4B GGUF相差不大,但在生成速度和回复成功率上领先。此外,Gemma 3n作为小参数多模态大模型,虽在图像识别上仅能进行基础操作,对动漫角色、复杂场景识别能力有限,但实现了移动端侧的多模态设计。
总体而言,Gemma 3n表现“偏科明显,但未来可期”。在文本问答和逻辑能力方面表现中规中矩,但响应速度快,运行稳定。其核心卖点离线图像识别能力处于基础层面,处理复杂中文时可能出现bug。这也反映出端侧小模型现阶段的弊病,虽具备多种功能,但距离“全能”仍有差距。