阿里巴巴开源QwQ-32B大模型：强化学习提升推理能力

AI快讯9个月前发布 niko

阿里巴巴旗下Qwen团队推出全新开源大型语言模型QwQ-32B，这是一款拥有320亿参数的推理模型，借助强化学习来强化复杂问题解决性能。

QwQ-32B已在HuggingFace和ModelScope上依据Apache2.0许可证开源。此开源模式使模型可用于商业及研究，企业能将其应用于产品与服务，个人用户也可通过QwenChat访问。

QwQ全称Qwen-with-Questions，于2024年11月首次亮相。最初的QwQ通过审查和改进自身答案，在数学和编码任务中展现出强大的逻辑推理与规划能力。不过早期版本在编程基准测试中有不足，还面临语言混合等挑战。

如今，最新的QwQ-32B通过整合强化学习和结构化自我提问进一步优化性能。采用多阶段强化学习训练方法，提升数学推理、编码能力和通用问题解决能力。

在基准测试中，QwQ-32B与诸多领先模型竞争，在参数量小于部分竞品时取得不错成绩。尤其在显存需求方面优势明显，仅需24GB vRAM。

QwQ-32B采用因果语言模型架构并优化，运用广义查询注意力（GQA），拥有131,072tokens的扩展上下文长度，历经多阶段训练。

其强化学习分两个阶段，第一阶段聚焦数学和编码，第二阶段提升指令跟随等能力。此外，QwQ-32B具备agenticcapabilities，能动态调整推理过程。

Qwen团队将QwQ-32B视为增强推理能力的重要一步，未来将持续探索强化学习应用，迈向通用人工智能。

文章版权归作者所有，未经允许请勿转载。