微软Phi-4模型的重大突破
微软推出的下一代小模型Phi-4已经震撼现身!这款模型在利用有限的合成数据情况下,在数学性能上战胜了GPT-4o,并发布了最新的36页技术报告。
Phi-4模型特点
Phi-4是微软下一代的小模型,仅通过40%的合成数据支持,在GPQA和MATH基准测试中,其数学性能直接超越了GPT-4o、Gemini Pro 1.5等模型,并与Llama-3.3-70B-Instruct的性能不相上下。Phi-4甚至在2024 ACM数学竞赛问题上取得了91.8%的准确率。Phi系列的前负责人Sebastien Bubeck对这一结果感到非常惊讶,显示了Phi-4在数学推理方面的速度与准确性。
技术突破
Phi-4采用了教科书级别的合成数据来完成训练,体现了Phi系列前几代的传统。它实现了三大核心技术突破:精选原生数据和先进的后训练技术,例如DPO中的关键token搜索(Pivotal Tokens Search)。这些技术的成功展示了数据生成和后训练技术比模型蒸馏更有助于提升模型能力,推翻了部分业界人士关于数据墙的观点。新模型除了在微软Azure AI Foundry上提供外,还将在HuggingFace平台上线。
数学性能超越GPT-4o
Phi-4与其他大多数依赖网络内容或代码等自然产生数据的语言模型不同,它有策略地融合了合成数据在整个训练过程中。Phi-4在STEM领域的问答能力显著超过了其教师模型GPT-4o,证明了数据生成和后训练技术对于提升模型能力的重要性。通过创新和后训练技术,Phi-4的推理任务性能与更大的模型相当,甚至超越了它们。
合成数据的优势
合成数据是Phi-4训练数据的重要组成部分,并已通过多种技术手段生成,包括多智能体提示、自修订工作流和指令反转等技术。这些技术构建了数据集使模型具备更强的推理和问题解决能力,解决了传统无监督数据集中的一些弱点。合成数据不是有机数据的廉价替代品,而是相对于有机数据具有几个直接优势,包括数据结构化和支持渐进式学习,对齐训练与推理上下文,以及在模型后训练中的重要性,其中采用了拒绝采样和直接偏好优化的新方法。
合成数据来源
Phi-4的模拟数据集来源于网页、代码种子以及问题数据集,通过这些种子构建了广泛覆盖各种主题的合成数据集,并保证了合成数据不被低质量网络数据所污染,成为高质量的训练数据集。模拟数据集的构建涉及多种创建问答对的方法,例如从书籍、科学论文和代码等有机来源中提取问答对,并对其进行重写和增强。
预训练与后训练的技术创新
Phi-4基于Transformer架构构建,提供了14B参数和默认的上下文长度4096,并在训练中期扩展到16K上下文。预训练评估通过内部基准测试进行,而后才训练阶段中最重要的技术之一是关键token搜索。它专注于单个关键token生成偏好数据,优化目标是使DPO优化效果精准作用于特定token。PTS方法通过找出能显著影响成功率的token位置,生成训练数据,并在关键决策点上帮助Phi-4做出更优的选择。
基准测试表现优异
通过上述技术的创新,Phi-4在各项基准测试中展现出不容忽视的实力。不仅在STEM问答任务上表现出色,在HumanEval和HumanEval+衡量的编码能力方面也超过了其他开源模型。Phi-4在SimpleQA、DROP和IFEval上表现欠佳,但对于SimpleQA和DROP,研究人员认为评估的数字过于简化。IFEval揭示了Phi-4在严格遵循指令方面存在困难,研究人员相信通过合成数据的针对性改善,Phi模型的指令跟随性能将得到显著提升。我们期待着Phi系列新小模型的发布,以及它可能带来的进一步的技术进步和创新。