微软在AI领域持续发力,进一步拓展了Phi-4家族版图,全新推出两款模型——Phi-4多模态(Phi-4-multimodal)与Phi-4迷你(Phi-4-mini),为AI应用领域注入新动力。
Phi-4多模态模型堪称微软的一大创举,作为其首款集成语音、视觉与文本处理的统一架构模型,拥有5600万参数。在众多基准测试里,它的表现可圈可点,力压众多竞争对手,像谷歌的gemini2.0系列便在其之下。特别是在自动语音识别(ASR)和语音翻译(ST)任务中,Phi-4多模态模型优势尽显,成功战胜WhisperV3和SeamlessM4T-v2-Large等专业语音模型,以6.14%的词错误率在HuggingFace OpenASR排行榜上拔得头筹。
视觉处理方面,Phi-4多模态模型同样大放异彩。它在数学和科学推理上能力出众,理解文档、图表以及执行光学字符识别(OCR)都不在话下。与Gemini-2-Flash-lite-preview和Claude-3.5-Sonnet等流行模型相比,丝毫不落下风,甚至更胜一筹。
而新发布的Phi-4迷你模型聚焦文本处理任务,拥有3800万参数。在文本推理、数学计算、编程和指令遵循等方面成绩斐然,超越多款流行大型语言模型。微软为保证新模型的安全性与可靠性,邀请内外部安全专家展开全面测试,并依据微软人工智能红队(AIRT)标准进行优化。
值得一提的是,这两款新模型借助ONNX Runtime能够部署到不同设备上,适用于多种低成本、低延迟的应用场景。目前已在Azure AIFoundry、Hugging Face和NVIDIAAPi目录上线,供开发者使用。Phi-4系列新模型的推出,无疑是微软在高效AI技术上迈出的重要一步,为未来人工智能应用开辟了新路径。