中国模型在HuggingFace热门榜单大放异彩
最新的HuggingFace热门模型榜单上,中国模型表现惊艳,含量超过50%。QwQ-32B不同型号的推理模型、HunyuanVideo-12V的全新版本、长期霸榜的DeepSeekR1,以及Qwen和R1的衍生模型等纷纷上榜。
开源路线变革与中国模型质量提升
DeepSeek开源R1后,大模型行业技术路线有所变动,不少闭源企业打算尝试开源。而且,R1之后中国模型冲榜不仅数量多,质量也有显著提升,在性能、实用性和稳定性上均有突破,对部署算力要求降低。
开放协议优势吸引开发者
中国开源模型多采用Apache2.0开放协议或MIT协议,开发者可自由二次开发、商用,专利归开发者,规避法律风险。如Qwen系列,其APi设计和开源资源完善,让开发者无需担忧协议变更。而Meta的LLaMA使用自主协议限制商用,专利归原公司,访问体验不稳定,条款模糊,令开发者却步。
开源深度全面,满足多样需求
中国模型开源深度更进一步,开放全系列不同参数规格模型权重,提供量化版本和完整训练数据集等。像适用于Qwen的CodeAlpaca-20K数据集,可在HuggingFace直接获取。HunyuanVideo-12v开源时,开放权重更高,支持多种角色和场景生成,还提供多种代码支持衍生模型开发。另外,Qwen系列规格覆盖全面,迭代快,弥补了Llama3参数规模的不足。
性能卓越,与顶级闭源模型比肩
在性能方面,中国模型已与顶级闭源模型相当甚至超越。DeepSeek-R1受开源社区欢迎,Qwen-72B超过gpt4,处理中文任务更优,DeepSeek系列代码生成能力也获高分。有开发者对比发现,微调Qwen1.5 0.5B比Phi 1.5效果好且时间短。
创新模式降低部署门槛
因美国对高端GPU出口管制,中国开发者转向“算法优先”模式。QwQ-32B推理模型在保持性能下缩小至最佳部署参数区间,降低对硬件要求。HunyuanVideo-12V和Wan2.1版本也能在消费级GPU上运行。
开放生态助力模型发展
中国大模型建立起开放生态,在训练和微调方面,DeepSpeed Chat、LLaMA EfficientTuning等开源框架提供强大支持;在模型推理方面,vLLM、Xinference等框架适配中国大模型,提升推理效率,降低硬件需求。模型开放、型号全、部署门槛低,全新生态结构正逐步建立。