30B参数开源扩散语言模型RND1-Base发布 并行生成能力推动AI架构革新

AI快讯6秒前发布 niko
1 0

当前,AI模型架构正经历深刻变革,具备并行生成与高效推理能力的扩散语言模型,逐渐成为行业关注核心。这类模型将文本生成类比为“噪声逐步降噪”的过程,可并行优化整个序列,相比传统自回归模型(逐token生成)大幅降低延迟,但其大规模工程化实践仍待突破。

10月9日,AI研究机构Radical Numerics正式推出RND1-Base——截至目前最大的开源扩散语言模型,参数规模达30B,采用稀疏混合专家架构,仅激活3B活跃参数。该模型基于自回归基础模型Qwen3-30BA3B转换而来,通过简单连续预训练实现向扩散范式的无缝过渡,避免了从零开始训练的资源消耗。

转换过程中,团队采用双向掩码机制与分层学习率,保留Qwen3-30BA3B的既有知识;同时用高达8M token的大批次训练确保稳定性,最终在500B token上完成预训练。这种“基于现有模型迁移”的思路,为自回归模型向扩散架构转换提供了高效参考路径。

与传统自回归模型逐token生成不同,RND1-Base将文本生成视为类似图像降噪的过程——从噪声中并行优化整个序列,还支持双向注意力机制。这一设计**既提升了生成的灵活性与可控性,又将推理延迟显著降低**,尤其适用于复杂推理、代码生成等对速度与可控性要求高的任务。此外,稀疏混合专家架构让模型在30B总参数中仅激活3B,优化了计算效率,更适合大规模部署。

在通用基准测试中,RND1-Base展现出强劲性能,超过Dream-7B、LLaDA-8B等早期开源扩散语言模型。具体来看:MMLU多任务语言理解得57.2%,GSM8K数学推理得72.1%,MBPP代码生成得51.3%——覆盖推理、STEM、编程三大领域,证明其在保留自回归基础模型优势的同时,通过扩散架构实现了性能跃升。

30B参数开源扩散语言模型RND1-Base发布 并行生成能力推动AI架构革新

目前,RND1-Base尚未进行微调,使用贪心采样时偶尔会出现重复,但开源代码已集成FlashInfer、SGLang后端,支持快速推理迭代。团队开源完整权重、训练配方与推理代码,目的是激发社区探索扩散语言模型的推理优化与微调潜力——当前扩散模型在语言领域正从实验走向实用,尤其在长序列并行生成上优势明显,RND1-Base的开源有望填补开源生态中高效生成模型的空白。

Radical Numerics定位为“下一代AI实验室”,聚焦构建递归自我改进引擎,RND1-Base正是这一愿景的产物——通过自动化AI研究平台,让模型参与优化下一代AI。团队成员来自DeepMind、Meta、Liquid、斯坦福等顶尖机构,目标是实现“AI自主设计AI”,加速科学与产业发现。

尽管RND1-Base在规模与性能上领先,但扩散模型的泛化能力与内存开销仍需优化。团队表示,未来结合多目标微调或混合架构,有望进一步释放其潜力。目前Radical Numerics已开启招聘,欢迎AI专业人士加入前沿探索。

RND1-Base的发布,标志着扩散语言模型从理论探索转向工程实践的重要转折点。通过开源这一超大规模扩散模型,Radical Numerics不仅为研究社区提供了关键工具,更打开了AI自我改进与递归优化的新可能。随着更多研究者参与,扩散语言模型或成为下一代AI架构的核心方向。

© 版权声明