Qwen3系列模型亮相：小参数大智能，具备混合思考模式与多语言支持

今日凌晨4点，阿里云正式开源阿里通义大模型新成员——Qwen3系列模型，该系列包含2个MoE模型和6个稠密模型。发布仅2小时，Qwen3模型在GitHub上的star数就超过了16.9k。

Qwen3 – 235B – A22B 作为旗舰模型，在编程、数学、通用能力等基准评估中，超越了DeepSeek – R1、OpenAIo1等业界知名模型。

Qwen3系列模型具有5大关键特性。首先是拥有8种参数大小的稠密与MoE模型，涵盖从0.6B到Qwen3 – 235B -A22B等不同参数规模。其次，引入混合思考模式，用户能自由切换“思考模式”与“非思考模式”，自主控制模型的思考程度。再者，推理能力显著提升，在数学、代码生成和常识逻辑推理方面超越了QwQ和Qwen2.5instruct models。另外，支持MCP协议，大幅提升了Agent能力，可在不同模式下实现大语言模型与外部数据源和工具的集成，完成复杂任务。最后，模型支持119种语言和方言，具备出色的多语言理解、推理、指令跟随和生成能力。

在上下文长度方面，6个稠密模型中，0.6B – 4B参数规模的模型上下文长度为32K，8B -32B参数规模的为128K；2个MoE模型上下文长度均为128K。其中，小型MoE模型Qwen3 – 30B – A3B 在激活参数仅为QwQ -32B的1/10时，实现了性能反超，参数规模更小的Qwen3 – 4B模型也达到了与Qwen2.5 – 72B – Instruct相当的性能。

与Qwen2.5相比，Qwen3的预训练数据集从1800亿个token增加到3600亿个token。预训练过程分为三个阶段，为模型赋予了基本语言技能、知识和处理长输入的能力。在后训练阶段，为开发出能兼顾逐步推理和快速响应的混合模型，研发人员采用了四阶段训练流程，包括思维链冷启动、基于推理的强化学习、思维模式融合和通用强化学习。

目前，Qwen3系列模型已在Hugging Face、ModelScope和Kaggle等平台上开源，遵循Apache2.0许可证。研发人员表示，未来将围绕优化模型架构和训练方法等维度继续提升模型能力，随着AI产业向以训练Agent为中心的时代过渡，通义大模型系列也将持续升级。

# AI快讯

文章版权归作者所有，未经允许请勿转载。