微软推Phi-4新模型：多模态与迷你版助力AI应用升级

AI快讯1年前 (2025)发布 niko

微软在AI领域持续发力，进一步拓展了Phi-4家族版图，全新推出两款模型——Phi-4多模态（Phi-4-multimodal）与Phi-4迷你(Phi-4-mini)，为AI应用领域注入新动力。

Phi-4多模态模型堪称微软的一大创举，作为其首款集成语音、视觉与文本处理的统一架构模型，拥有5600万参数。在众多基准测试里，它的表现可圈可点，力压众多竞争对手，像谷歌的gemini2.0系列便在其之下。特别是在自动语音识别（ASR）和语音翻译(ST)任务中，Phi-4多模态模型优势尽显，成功战胜WhisperV3和SeamlessM4T-v2-Large等专业语音模型，以6.14%的词错误率在HuggingFace OpenASR排行榜上拔得头筹。

视觉处理方面，Phi-4多模态模型同样大放异彩。它在数学和科学推理上能力出众，理解文档、图表以及执行光学字符识别（OCR）都不在话下。与Gemini-2-Flash-lite-preview和Claude-3.5-Sonnet等流行模型相比，丝毫不落下风，甚至更胜一筹。

而新发布的Phi-4迷你模型聚焦文本处理任务，拥有3800万参数。在文本推理、数学计算、编程和指令遵循等方面成绩斐然，超越多款流行大型语言模型。微软为保证新模型的安全性与可靠性，邀请内外部安全专家展开全面测试，并依据微软人工智能红队（AIRT）标准进行优化。

值得一提的是，这两款新模型借助ONNX Runtime能够部署到不同设备上，适用于多种低成本、低延迟的应用场景。目前已在Azure AIFoundry、Hugging Face和NVIDIAAPi目录上线，供开发者使用。Phi-4系列新模型的推出，无疑是微软在高效AI技术上迈出的重要一步，为未来人工智能应用开辟了新路径。

# AI快讯

文章版权归作者所有，未经允许请勿转载。