Tiny-R1-32B-Preview中等量级推理模型正式亮相2月24日,由360智脑团队携手北京大学共同研发的Tiny-R1-32B-Preview中等量级推理模型,正式面向公众发布。这一模型在参数量仅为5%的情况下,成功地在性能上逼近了DeepSeek-R1-671B的满血状态,充分彰显了小模型于高效推理领域所蕴含的巨大潜力。
多领域成绩斐然,展现卓越性能在多个关键领域,Tiny-R1-32B-Preview展现出了令人瞩目的实力。数学领域中,在AIME2024评测里,它斩获了78.1分的佳绩,与原版R1模型的79.8分极为接近,大幅超越了Deepseek-R1-Distill-LLaMA-70B的70.0分。编程和科学领域,其在LiveCodeBench和GPQA-Diamond测试中,分别取得61.6分和65.0分的成绩,全面领先于当前最佳开源70B模型Deepseek-R1-Distill-Llama-70B。如此成绩,既证实了该模型的卓越性能,又因仅需5%的参数量,显著降低了推理成本,实现了效率的大幅提升。
“分治-融合”策略,创新技术路径 这一突破的核心技术在于“分治-融合”策略。研究团队以DeepSeek-R1为基础生成海量领域数据,分别对数学、编程、科学三大垂直领域的模型展开训练。之后,借助ARCee团队的Mergekit工具进行智能融合,成功突破了单一模型的性能上限,达成了多任务的均衡优化。这种创新的技术路径,不仅提升了模型性能,更为未来推理模型的发展开拓了新的思路。
得益于开源技术,推动技术普惠360智脑团队和北京大学的联合研发团队表明,Tiny-R1-32B-Preview的成功离不开开源社区的有力支持。该模型从DeepSeek-R1蒸馏、DeepSeek-R1-Distill-32B增量训练以及模型融合等技术中受益颇多。为推动技术的广泛普及,研发团队承诺将完整的模型仓库公开,其中涵盖技术报告、训练代码以及部分数据集。目前,模型仓库已在HuggingFace平台上线,地址为https://HuggingFace.co/qihoo360/TinyR1-32B-Preview 。