今日凌晨4点,阿里云正式开源阿里通义大模型新成员——Qwen3系列模型,该系列包含2个MoE模型和6个稠密模型。发布仅2小时,Qwen3模型在GitHub上的star数就超过了16.9k。
Qwen3 – 235B – A22B 作为旗舰模型,在编程、数学、通用能力等基准评估中,超越了DeepSeek – R1、OpenAIo1等业界知名模型。
Qwen3系列模型具有5大关键特性。首先是拥有8种参数大小的稠密与MoE模型,涵盖从0.6B到Qwen3 – 235B -A22B等不同参数规模。其次,引入混合思考模式,用户能自由切换“思考模式”与“非思考模式”,自主控制模型的思考程度。再者,推理能力显著提升,在数学、代码生成和常识逻辑推理方面超越了QwQ和Qwen2.5instruct models。另外,支持MCP协议,大幅提升了Agent能力,可在不同模式下实现大语言模型与外部数据源和工具的集成,完成复杂任务。最后,模型支持119种语言和方言,具备出色的多语言理解、推理、指令跟随和生成能力。
在上下文长度方面,6个稠密模型中,0.6B – 4B参数规模的模型上下文长度为32K,8B -32B参数规模的为128K;2个MoE模型上下文长度均为128K。其中,小型MoE模型Qwen3 – 30B – A3B 在激活参数仅为QwQ -32B的1/10时,实现了性能反超,参数规模更小的Qwen3 – 4B模型也达到了与Qwen2.5 – 72B – Instruct相当的性能。
与Qwen2.5相比,Qwen3的预训练数据集从1800亿个token增加到3600亿个token。预训练过程分为三个阶段,为模型赋予了基本语言技能、知识和处理长输入的能力。在后训练阶段,为开发出能兼顾逐步推理和快速响应的混合模型,研发人员采用了四阶段训练流程,包括思维链冷启动、基于推理的强化学习、思维模式融合和通用强化学习。
目前,Qwen3系列模型已在Hugging Face、ModelScope和Kaggle等平台上开源,遵循Apache2.0许可证。研发人员表示,未来将围绕优化模型架构和训练方法等维度继续提升模型能力,随着AI产业向以训练Agent为中心的时代过渡,通义大模型系列也将持续升级。