INTELLECT-2：分布式RL训练新突破，引领AI训练范式变革

INTELLECT – 2作为全球首个分布式RL训练模型，日前正式发布。它凭借整合全球闲置或分散的计算资源完成强化学习训练，大幅降低了训练成本，且模型性能与DeepSeek -R1相当。这一成果意味着RL训练有望摆脱对集中式算力的依赖，打破大公司对算力的垄断。

从研发历程看，Prime Intellect团队 从编写prime – rl 模型强化学习框架到发布INTELLECT -2仅用了两个月。目前已有19个人/机构为其提供算力资源支持，还吸引了Karpathy大神等众多大佬投资。

用户可在网页端简单注册后体验INTELLECT – 2，输入仅支持文本。测试显示，它能准确回答一些基础和有难度的问题，但性能还不够稳定。

INTELLECT -2采用全球分布式异步强化学习范式，类似超大型众包项目，任何有闲置算力的人都能参与。“异步”特性让不同性能设备可并行参与训练。其训练流程涉及四大关键组件。

核心RL框架prime – rl 支持推理数据生成与模型训练解耦和异步执行，采用vLLM提升性能、减小显存占用，还集成FSDP技术对模型切片。

参数分发网络SHARDCAST基于HTTP，负责将更新后的模型权重广播给推理节点。它引入分片传输、多级缓存、智能调度等优化技术，解决了模型权重分发难题。

推理验证协议TOPLOC 通过密码学证明和可验证计算等技术，验证推理节点数据的可信性，确保模型训练不受虚假数据干扰。

Protocol Testnet 作为底层基础设施，为计算资源管理和任务调度提供统一接口和规范，将不同训练任务组织成独立计算域，实现去中心化管理。

训练过程中，INTELLECT -2采用两步异步强化学习模式和双面GRPO剪辑，还使用特定数据提高学习效率。实验表明，它在数学和编程基准测试上相比QwQ – 32B 有所提升。

Prime Intellect团队位于美国旧金山，成员背景丰富。此前团队已发布多个分布式训练模型成果，今年2月获1500万美元新投资。未来，团队计划提高推理- 训练计算比例，为模型提供内置工具，融合独立训练的RL模型，还将扩大计算市场，加强与其他项目合作。

文章版权归作者所有，未经允许请勿转载。