Gemini 2.5 Pro登顶，背后灵魂人物与技术优势揭秘

AI快讯1年前 (2025)发布 niko

gemini 2.5 Pro实现大逆转 。去年还被OpenAI的4o模型压制，今年Gemini 2.5Pro已全面霸榜。《硅谷101》创始人泓君与Energent.ai联合创始人Kimi Kong、HeyRevia创始人ShaunWei，和两位前Google技术专家探讨了Gemini登顶的底层逻辑。

强化学习推动模型提升。大语言模型训练主要分预训练、监督微调、对齐三个步骤。如今公开网络数据抓取殆尽，更多精力投入到对齐阶段，尤其是强化学习方向。Google从Gemini1到2积累了基座模型训练经验，还启动“让AI批判AI”机制。Gemini 2.5在训练中引入更多强化学习策略，使其在编程、数学等高确定性任务表现出色。

代码生成能力的差异。不同模型代码生成能力有别，AnthroPic生成的代码质量明显更优。预训练阶段的数据配比，以及对齐环节不同团队的优先级，影响着模型的代码能力。Anthropic将编程作为首要任务，在各阶段引入更多编程训练，虽提升了代码能力，但其他能力有所欠缺。

推理能力的竞争态势。早期Google在追赶OpenAI的写作和问题解决能力，后来意识到编程和推理能力的重要性。如今Google凭借推理能力引领潮流，让其他模型成为追赶者。

数学能力的商业价值 。Grok在数学能力表现不错，其创始团队有顶尖数学家。数学能力可用于解决高难度奥数题，也可接入创业公司创造商业价值。

三位灵魂人物引领发展 。Jeff Dean擅长集群调度和预训练，Oriol Vinyals是强化学习项目的灵魂人物，NoamShazee在自然语言处理领域深耕多年。他们三人将预训练、强化学习、语言能力整合，推动Google模型能力提升。

TPU生态带来API价格优势。Google从十年前开始投入TPU生态，避免了“NVIDIA税”。其强大的基础设施和动态调度资源能力，以及软硬件一体化优势，使其API接入成本和token使用成本远低于OpenAI和Anthropic。

# AI快讯

文章版权归作者所有，未经允许请勿转载。