谷歌开源端侧多模态大模型Gemma 3n，引领移动端AI新变革

近期，国内AI大模型领域略显沉寂。此前备受瞩目的DeepSeek -R2尚无确切进展，AI四小龙也未有新成果推出。大厂虽将精力转向应用，但也未出现令人惊艳的产品。在线大模型进展缓慢，本地大模型更是停滞不前。

在此背景下，谷歌DeepMind上周宣布发布并开源全新端侧多模态大模型 Gemma 3n。谷歌表示，该模型代表了移动设备端AI的重大进步，能为端侧设备赋予强大多模态功能，让用户体验到云端先进模型的高效处理性能。

Gemma 3n 是利用 MatFormer架构打造的轻量化端侧大模型，通过嵌套式结构实现低内存消耗设计。官方推出了5B（E2B）和8B（E4B）两种型号，但其VRAM占用与2B和4B相当，最低仅需2GB。

与常规文本剪裁模型不同，Gemma 3n原生支持图像、音视频等多种输入模态，可实现自动语音识别（ASR）和自动语音翻译（AST），还能完成图像和视频理解任务，这种原生的多模态、多语言设计，非常适合移动端侧设备。

为方便用户使用，Google上线了 Google AI Edge Gallery应用，这是Google首次尝试将轻量AI推理带入本地设备。该应用支持在手机上直接运行来自HuggingFace平台的开源AI模型，目前已在Android平台开放下载。用户完成大模型加载后，可利用该应用实现对话式AI、图像理解等功能，还能导入自定义LiteRT格式模型，无需联网即可调用手机本地算力。

实测环节中，测试人员选择了 Gemma 3n – 4B 、通义千问的Qwen2.5 – 1.5B以及Qwen3 – 4BGGUF进行测试。在经典的草莓问题、误导问题、地理常识问题和文本处理任务中，Gemma 3n – 4B 在文本处理、逻辑推理能力上与Qwen3 -4B GGUF相差不大，但在生成速度和回复成功率上领先。此外，Gemma 3n作为小参数多模态大模型，虽在图像识别上仅能进行基础操作，对动漫角色、复杂场景识别能力有限，但实现了移动端侧的多模态设计。

总体而言，Gemma 3n表现“偏科明显，但未来可期”。在文本问答和逻辑能力方面表现中规中矩，但响应速度快，运行稳定。其核心卖点离线图像识别能力处于基础层面，处理复杂中文时可能出现bug。这也反映出端侧小模型现阶段的弊病，虽具备多种功能，但距离“全能”仍有差距。

# AI快讯

文章版权归作者所有，未经允许请勿转载。