阿里巴巴旗下Qwen团队推出全新开源大型语言模型QwQ-32B,这是一款拥有320亿参数的推理模型,借助强化学习来强化复杂问题解决性能。
QwQ-32B已在HuggingFace和ModelScope上依据Apache2.0许可证开源。此开源模式使模型可用于商业及研究,企业能将其应用于产品与服务,个人用户也可通过QwenChat访问。
QwQ全称Qwen-with-Questions,于2024年11月首次亮相。最初的QwQ通过审查和改进自身答案,在数学和编码任务中展现出强大的逻辑推理与规划能力。不过早期版本在编程基准测试中有不足,还面临语言混合等挑战。
如今,最新的QwQ-32B通过整合强化学习和结构化自我提问进一步优化性能。采用多阶段强化学习训练方法,提升数学推理、编码能力和通用问题解决能力。
在基准测试中,QwQ-32B与诸多领先模型竞争,在参数量小于部分竞品时取得不错成绩。尤其在显存需求方面优势明显,仅需24GB vRAM。
QwQ-32B采用因果语言模型架构并优化,运用广义查询注意力(GQA),拥有131,072tokens的扩展上下文长度,历经多阶段训练。
其强化学习分两个阶段,第一阶段聚焦数学和编码,第二阶段提升指令跟随等能力。此外,QwQ-32B具备agenticcapabilities,能动态调整推理过程。
Qwen团队将QwQ-32B视为增强推理能力的重要一步,未来将持续探索强化学习应用,迈向通用人工智能。
© 版权声明
文章版权归作者所有,未经允许请勿转载。