INTELLECT – 2作为全球首个分布式RL训练模型,日前正式发布。它凭借整合全球闲置或分散的计算资源完成强化学习训练,大幅降低了训练成本,且模型性能与DeepSeek -R1相当。这一成果意味着RL训练有望摆脱对集中式算力的依赖,打破大公司对算力的垄断。
从研发历程看,Prime Intellect团队 从编写prime – rl 模型强化学习框架到发布INTELLECT -2仅用了两个月。目前已有19个人/机构为其提供算力资源支持,还吸引了Karpathy大神等众多大佬投资。
用户可在网页端简单注册后体验INTELLECT – 2,输入仅支持文本。测试显示,它能准确回答一些基础和有难度的问题,但性能还不够稳定。
INTELLECT -2采用全球分布式异步强化学习范式,类似超大型众包项目,任何有闲置算力的人都能参与。“异步”特性让不同性能设备可并行参与训练。其训练流程涉及四大关键组件。
核心RL框架prime – rl 支持推理数据生成与模型训练解耦和异步执行,采用vLLM提升性能、减小显存占用,还集成FSDP技术对模型切片。
参数分发网络SHARDCAST基于HTTP,负责将更新后的模型权重广播给推理节点。它引入分片传输、多级缓存、智能调度等优化技术,解决了模型权重分发难题。
推理验证协议TOPLOC 通过密码学证明和可验证计算等技术,验证推理节点数据的可信性,确保模型训练不受虚假数据干扰。
Protocol Testnet 作为底层基础设施,为计算资源管理和任务调度提供统一接口和规范,将不同训练任务组织成独立计算域,实现去中心化管理。
训练过程中,INTELLECT -2采用两步异步强化学习模式和双面GRPO剪辑,还使用特定数据提高学习效率。实验表明,它在数学和编程基准测试上相比QwQ – 32B 有所提升。
Prime Intellect团队位于美国旧金山,成员背景丰富。此前团队已发布多个分布式训练模型成果,今年2月获1500万美元新投资。未来,团队计划提高推理- 训练计算比例,为模型提供内置工具,融合独立训练的RL模型,还将扩大计算市场,加强与其他项目合作。